Taller en Tecnología de Redes Internet para América Latina y el Caribe
Programa 4: Tecnologías Internet para Bibliotecas

13 al 18 de julio de 1998
Rio de Janeiro - Brasil



 
 
 

Herramientas de Búsqueda en Internet


 

Gabriela Ortúzar F.
Universidad de Chile
Sistema de Servicios de Información y Bibliotecas - SISIB


BÚSQUEDA EN INTERNET

1. Introducción

2. Herramientas de búsqueda (buscadores)
2.1. Buscadores automáticos (Search engines)
    *  Metabuscadores (Metasearch engines)
2.2. Directorios (Subject guides)
    *  Directorios especializados

2.3. Comparación de buscadores automáticos (Search engines)
    *  Según tamaño
    *  Según cobertura
    *  Principales buscadores
            *  Altavista
            *  Excite
            *  HotBot
            *  Infoseek
            *  Northern Light

3.  Referencias


INTRODUCCION

Según un estudio publicado en la revista Science en abril de 1998, se estima que lnternet contiene 320 millones de páginas de información.

Nos enfrentamos a un mundo de información que:

-  continúa creciendo, duplicando su tamaño cada 4 meses, de acuerdo a ciertas estimaciones.
-  carece de las normas de control bibliográfico tal como las que tenemos en el mundo impreso:
               · ISBN para identificar un documento en particular
               · sistemas estándares para catalogar y clasificar
               · catálogos centralizados que incluyan todas las existencia del web.
               · No existen normas de publicación.  Muchos de los sitios ni siquiera cuentan con datos
                 como el autor o fecha de publicación.

Para utilizar en mejor forma esta poderosa fuente de información debemos familiarizarnos con las herramientas de búsqueda (buscadores) y desarrollar técnicas efectivas de búsqueda.
 

2. HERRAMIENTAS DE BÚSQUEDA

2.1 BUSCADORES AUTOMÁTICOS (SEARCH ENGINES)

Son aquellos que a partir de cierta información entregada en lenguaje natural o en alguna especificación, puede recuperar la información, que uno está buscando desde la base de datos de los buscadores.

Encuentra los documentos que contengan las palabras claves introducidas.  Habitualmente localiza las páginas Web que mejor se adapten a las palabras introducidas.  No todos los buscadores automáticos entregan los mismos resultados, ya que existen diferencias en:

        · Tamaño de la base de datos
        · Frecuencia de actualización
        · Capacidades de búsqueda

¿ Cómo son ?

Están compuestos por tres partes
        · los robots que recorren la red escrutándola.
        · la base de datos (índice) que es construida por los robots.
        · el motor de búsqueda que facilita la consulta a la base.

Robots:

Son programas que buscan continuamente por todos los servidores de WWW (también en los de News , Gopher y FTP), construyendo un índice de lo hallado.  También son conocidos como arañas por su contínuo desplazamiento sobre la red o telaraña.

Cómo decide un robot qué visitar?

Depende del robot, cada uno usa su propia estrategia.  En general comienzan por un listado histórico de URLs, especialmente de documentos que tienen enlaces a muchos Webs, listas de servidores, páginas de novedades y los webs más populares de lnternet.

La mayoría de los servicios de indexación o buscadores te permiten mandar URLs manualmente que entran a formar parte de una cola para que el robot las visite.

Base de datos:

Una vez que tiene constancia de la existencia de un documento, lo indexa y lo añade a su base de datos.
Contiene todos los URL encontrados, y asociados a ellos, la información relativa sobre sus contenidos:

    · su título HTML o los primeros párrafo
    · todas las palabras del código HTML
    · hiperenlaces
    · descriptores (palabras claves) en Metatags u otras etiquetas.

Está actualizada continuamente por los robots que añaden nuevas páginas o referencias, actualizan las que han cambiado y borran las que ya no existen.

Motor de búsqueda:

Programas que buscan en una base de datos de documentos HTML indexados por un robot.

Es la parte que vemos cuando realizamos la búsqueda.  Después de introducirle una petición de búsqueda, el motor de búsqueda la coteja con la base de datos y devuelve una lista ordenada de las coincidencias.  La lista está ordenada según la relevancia de la consulta colocándose primero las más coincidentes.

¿Cómo funcionan?

Al conectar con algún buscador nos encontraremos con una página que contiene un formulario para definir nuestra búsqueda y las opciones de la misma; tras rellenarla, enviarla y esperar unos segundos, el buscador nos devolverá una lista de lugares donde figura nuestra búsqueda.  Así pues tendremos dos áreas según el propósito:

1. Formular la búsqueda y enviarla.
2. Lista de resultados, ordenados según su semejanza con las palabras claves introducidas.

Si no conseguimos los resultados deseados, volvemos al inicio, pero modificando la estrategia de búsqueda según la observación de los resultados.

Consideraciones:

No maneja información imprecisa.  Dará mayor importancia a un documento que tiene mayor cantidad de ocurrencias en lugar de aquel que posee información relevante para el usuario.

Ejemplos de buscadores automáticos:
    · Alta Vista
    · Excite
    · Hotbot
    · Lycos
    · Northern Light
    · lnfoseek

BUSCADORES AUTOMÁTICOS: METABUSCADORES

Con el crecimiento de buscadores o search engines se hizo necesario la creación de meta- buscadores, que hacen búsquedas simultáneas en una sola interface.  Aunque no ofrecen el mismo nivel de control sobre las interfaces de búsqueda, ya que cada buscador tiene su propia lógica de búsqueda, son bastante rápidos.

Recientemente las capacidades de los metabuscadores han aumentado y pueden extraer resultados por sitio, por tipo de recurso, o por dominio, la opción de seleccionar los buscadores a incluir en una búsqueda y la posibilidad de modificar los resultados.  Esa ha permitido aumentar la eficiencia y utilidad de los metabuscadores.

Los más conocidos son;

    · Inference Find (http://www.inference.com/infind/)
    · Metacrawler (http://www.metacrawler.com)
    · ProFusion (http://profusion.ittc.ukans.edu/)
 

2.2. DIRECTORIOS 0 BUSCADORES TEMÁTICOS

Son una guía jerárquica de directorios que va de los temas más generales a los más particulares y permite buscar sitios webs por tema . Listan lugares (URLs,) y los clasifican en categorías temáticas.

Objetivo:

Encontrar los documentos que pertenezcan al área temática seleccionada.

¿Cómo son?

Están compuestos por dos partes:
         *  la base de datos que es construida por los URLs remitidos.
         *  una estructura jerárquica que facilita la consulta de la base.

¿Cómo funcionan?

Al conectar con algún buscador nos encontraremos con una página que contiene una estructura jerárquica de temas, es decir, hay un grupo de temas generales, al seleccionar uno nos sale otro grupo de temas dependiente (cada vez mas específico) del que nos llevó allí, y podemos seguir así hasta que localicemos el tema de nuestro interés o se acaben las categorías creadas por el autor del buscador.

Consideraciones:

· Apropiados para búsquedas temáticas generales, más que para temas muy específicos.
· Menor cantidad de resultados de búsqueda (aciertos) ya que las bases de datos suelen ser más pequeñas que las de los buscadores automáticos.
· La mayoría de ellos son compilados y mantenidos por personas, lo que reduce la posibilidad de recuperar información no relevante.  Los buscadores automáticos indexan cada página de un sitio web, en cambio en los directorios temáticos se hace un enlace directo a la página principal del sitio.
· No suelen estar muy actualizados, ya que la actualización es más lenta por la intervención humana.
· Es lenta para encontrar lo deseado, pues exige varios pasos previos.
· Podemos perdernos al distraernos antes de localizar lo que nos habíamos propuesto encontrar.
· Existen temas de difícil categorización.

Los más destacados son:
        Yahoo: http://www.yahoo.com/
        Galaxy: http://www.einet.net
        Magellan: http://www.mckinley.com

Ejemplo de buscador temático:

  Yahoo!
  URL:   http://www.yahoo.com
Estructura: en directorios de una forma ejemplar, aunque en inglés, y tenemos dos opciones de búsqueda:
* Desplazarnos por la estructura de directorios
* Usar un buscador automático de sus directorios y contenidos.
   Use la segunda opción si tiene definido lo que busca.

En los resultados de la cualquier búsqueda, Yahoo da tres diferentes tipos de información:

* Categorías Yahoo que contengan las palabras de búsqueda.
*  Sitios que contengan las palabras de búsqueda.
*  Categorías Yahoo donde esos sitios están listados.

De esta manera puede ir directamente a los sitios encontrados, o ver alguna de las categorías Yahoo relativas a su búsqueda.

En las categorías podemos encontrar estos símbolos que significan:
*  "@" La existencia de otra categoría superior de ese mismo tema.
*  Un número entre paréntesis que indica en numero de opciones contenidas.
*   XTRA!, indica que existe algún artículo o novedad sobre ese tema.

*  DIRECTORIOS TEMÁTICOS ESPECIALIZADOS - BIBLIOTECAS (LIBRARIES)

Son muy parecidos a los buscadores temáticos aunque sólo abordan algún área concreta, también pueden contener buscadores automáticos.  Suelen ser grandes recopilaciones del conjunto de recursos sobre un tema específico.

Los más destacados:
Argus Clearinghouse:  http://www.clearinghouse.net
WWW Virtual Library Group:  http://www.vlib.standford.edu/overview.html
www.search.com

2.3. COMPARACION DE BUSCADORES AUTOMÁTICOS (SEARCH ENGINES)

*   Según tamaño
 
 
 
BUSCADOR MILLONES DE PAGINAS
WEB INDIZADAS
Altavista 140
Hotbot 110
Northern Liht 67
Excite 55
Infoseek 30
Lycos 30
Webcrawler 2
Fuente: www.searchenginewatch.com, junio 17 de 1998
 

· Según cobertura
 
 
 
PRINCIPALES BUSCADORES AUTOMÁTICOS COBERTURA
% DEL WWW INDIZADO
Altavista 70
Hotbot 55
Northern Light 34
Excite 28
Infoseek 15
Lycos 15
Webcrawler 1
Fuente: www.searchengjnewatch.com - iunio, 17, 1998
 

PRINCIPALES BUSCADORES

1. Altavista

URL: http://www.altavista.digital.com/
Tamaño: Más de 140 millones de páginas
Actualización: 2 a 3 días
Interface: Simple y avanzada.  Las dos permiten búsqueda booleana.  La interface avanzada permite limitar la búsqueda por fecha.
Ayuda: Clara, con instrucciones detalladas.
Características:  Operadores booleanos AND, OR y NOT, NEAR, y la posibilidad de buscar por frases poniendo las palabras entre comillas; truncación derecha e izquierda con '*'; habilidad para restringir la búsqueda a ciertas partes o a un tipo de documentos , ej. título o imagen, URL, Java applets, y enlaces.  Indice de relevancia basado en el lugar donde se encontró el término dentro del documento, y el número de ocurrencias del término dentro del documento.

Altavista fue el primer buscador que incorporó la posibilidad de acotar las búsquedas por idioma, incluyendo 25 diferentes idiomas.

Resultados: El despliegue de aciertos muestra el título, la URL, las dos primeras líneas del documento, el idioma, fecha y tamaño (en bytes) de cada documento.  Los resultados son desplegados en orden de relevancia.  Además se puede refinar o ajustar la búsqueda agregando palabras que pueden ser incluidas o excluidas de la búsqueda.

Otros: Hay opciones de buscar por newsgroups, personas y empresas.  Posee un sistema de traducción automática que traduce textos y documentos web, desde y hacia diferentes idiomas.

Es el más potente, destaca por su rapidez de respuesta en devolver las direcciones y referencias.  Es muy completo. Posee más facilidades para ajustar la búsqueda que Lycos.
 

2. Excite

URL: http://www.excite.com
Tamaño: Más de 50 millones de sitios web
lndexación: 12 a 15 días
Interface: Ofrece 2 interfaces:
Simple: consiste en una búsqueda simple sin tener opción de modificar o acotar la búsqueda, sin embargo los operadores booleanos básicos pueden ser usados (+, -).
Power search: presenta una serie de formularios o ventanas de búsqueda, que permiten ingresar la palabra o frase a buscar y la posibilidad de acotar que palabras o frases que el documento DEBE incluir, PUEDE incluir y NO DEBE incluir.

Ayuda: Es detallada, clara y bien organizada.

Características: Operadores booleanos AND, OR y NOT, + y - para incluir o excluir palabras. Power Search permite buscar por frases.  Después que los resultados son desplegados "More Like This" permite enlazar a documentos que son similares.  Usa un ranking de relevancia con los resultados de búsqueda pero no indica cuales son los criterios para determinar esa relevancia.

Resultados: Para cada documento despliega: Título, URL, un breve resumen y nivel de relevancia (como un porcentaje).  Por defecto despliega en orden de relevancia pero se puede elegir desplegar las 40 más relevantes.  Esa es sumamente útil cuando se recupera una gran cantidad de resultados.

3. HotBot

URL: http://www.hotbot.com
Tamaño: Más de 50 millones de documentos
Indexación: 1 y 3 días
Interface: HotBot ofrece 2 interfaces:
Una por defecto (que no es simple, ya que ofrece más posibilidades que algunas búsquedas avanzadas de otros buscadores) y SuperSearch. Ambas interfaces ofrecen menús para modificar los criterios de búsqueda. Restringen la búsqueda por fecha, lugar geográfico, y nombre de dominio.

Ayuda: "Getting Started", responde preguntas básicas sobre la búsqueda y FAQ (Frequently Asked Questions) entrega la mayor cantidad de información sobre la mayoría de los grandes buscadores.

Características: Opciones de búsqueda: Todas las palabras, algunas palabras, la frase exacta, la persona (Ej. una búsqueda por "Bill Gates" buscará por "Bill Gates" and "Gates, Bill"), enlace a su URL, and "la frase booleana". Otras opciones permiten restringir la búsqueda por fecha, por dominio lnternet (ej. edu or www.okanagan.bc.ca), o por tipo de medio (ej.:  Java, Audio, lmage, VRML). El Ranking de relevancia está basado en una combinación de frecuencia de aparición del término y ubicación dentro del documento.

Resultados: Ofrece 3 opciones:
Descripción completa: incluye el título del documento, las primeras líneas del texto, URL, tamaño (en bytes) y fecha.
Descripción breve: título y las primeras 10 palabras.
Solamente URL.

Otros: Tiene opciones de búsqueda por newsgroups, negocios, personas, direcciones electrónicas.

4. Infoseek

URL: http://www.infoseek.com
Tamaño: Más de 50 millones de URLs
Indexación: Varia.  A veces instantáneo, otras, 1 o más días.
Interface: Sólo interface simple, pudiendo buscar por: ciertos tipos de documentos lnternet , ej.  Usenet News, nuevos servicios en línea e información de empresas.

Ayuda: Detallada y clara.

Características: Operador booleano OR está por defecto.  Permite también AND y NOT (+ -). Búsqueda por frases.  Búsqueda a ciertas partes del documento: títulos, enlaces, URLs.
Ranking de relevancia está basado en la ubicación del término dentro del documento, el número de ocurrencias dentro del documento y la frecuencia con que esta palabra aparece en la base de datos de lnfoseek.

Resultados: Están desplegados en orden decreciente de relevancia.  Incluye: título, URL, fecha, tamaño (en bytes), y las 3 primeras líneas del texto.  Hay una opción de ver sólo la URL y el tamaño. Después que los resultados han sido desplegados hay una opción de agregar términos adicionales de búsqueda y operadores.

Infoseek es el único de los buscadores que ofrece buscar dentro de una lista de resultados.  Altavista tiene una opción similar, sólo que te obliga a elegir de una lista de palabras que te sugiere no permitiendo elegir los términos de búsqueda.

Otros: Infoseek incluye una guía jerárquica temática, búsqueda por Usenet News articies, perfiles de empresas de Hoover's Online, mapas de calles de Estados Unidos, y un directorio de páginas amarillas.

5. Northern Light

URL:  http://www.northernlight.com
Tamaño: 67 millones de páginas.  Su base de datos es una de las 3 más grandes, junto con HotBot y Altavista.
lndexación: 2 a 3 semanas.
Interface: Simple y sin opciones de modificar la lógica de búsqueda de la pantalla inicial.  No ofrece búsquedas avanzadas.

Ayuda: Adecuada.  Podría ser más detallada.

Características: Para buscar permite AND, OR y NOT (+ - para incluir o excluir términos), pero no todas las búsquedas booleanas.

Resultado: Los resultados son desplegados en orden decreciente de relevancia.  Northern Light tiene una opción única dentro de los buscadores que es ordenar los resultados en carpetas (Custom Search Folders) que pueden ser de 4 tipos: materia, tipo de documento, fuente e idioma.  Las materias se van subdividiendo en subcarpetas.

Otros: A través de su base de datos de documentos WWW ofrece acceso a una colección especial de 2 millones de documentos de 2.900 fuentes de información que incluyen libros, revistas, publicaciones académicas y online news services.
 

3. REFERENCIAS

http://www.lib.berkeley.edu/TeachingLib/Guides/lnternet/Findinfo.html
http://searchenainewatch.internet.com/webmasters/features.html
http://www.rice.edu/Fondren/Netguides/reviews.html
http://www.albany.edu/library/internet/choose.html
http://www.indiana.edu/~librcsd/search/
http://www.sci.ouc.bc.ca/libr/connectg96/search.htm#exercises
http://home.earthlink.net/-fpearce/engines.html



REGRESAR