Para mi proyecto final de carrera estoy programando un buscador. No es una tarea fácil, pero gracias a lo que estoy aprendiendo ya no veo a Google como algo tan misterioso. Tengo pensado escribir unos cuantos artículos para divulgar lo que vaya aprendiendo, es importante saber como funciona un buscador para hacer que sea más fácil para ellos encontrar información en nuestros blogs y páginas webs.
Clasificar información para luego encontrarla con facilidad es una tarea que lleva realizando la humanidad desde hace muchos siglos, el problema es que cada vez disponemos de más cantidad de información escrita. Necesitamos mejores métodos para organizar la información y luego obtenerla con facilidad. Uno de los métodos más potentes que existe hoy en día consiste en obtener la información de forma automática.
Dentro de la obtención de información de forma automática se pueden definir varios enfoques según la finalidad y modo de funcionamiento:
- Recuperación de información (Information Retrieval)
- Extracción de información (Information Extraction)
- Búsqueda de respuestas (Question answering)
La Recuperación de información consiste en indicar al usuario en qué documentos puede haber información relevante. Un sistema de Recuperación de información nos indica en que documentos hay apariciones de las palabras que hemos puesto en nuestra búsqueda y los ordena según una puntuación. Un ejemplo de este tipo de sistemas son los típicos buscadores como Google, Yahoo etc.
La Extracción de información consiste en hacer lo mismo que la Recuperación de información pero en vez de mostrar los resultados al usuario se generan una serie de archivos con los datos más importantes que se han encontrado. Estos sistemas eliminarían la tarea del usuario de tener que seleccionar los resultados realmente importantes. Aun no existe ningún sistema de este tipo realmente efectivo en entornos abiertos como Internet, solo se han hecho pruebas con colecciones de datos de temas concretos.
La Búsqueda de respuestas consiste en responder a una pregunta concreta del usuario. A un sistema de búsqueda de respuestas le podemos hacer peticiones del tipo ¿Cuándo nació Einstein? ¿Dónde está la plaza roja? y debe ser capaz de respondernos con una frase concreta. Puede sonar a ciencia ficción pero ya hay sistemas que son capaces de responder a preguntas sencillas.
Mis compañeros y yo estamos construyendo por ahora un sistema de Recuperación de información que utilizaremos para intentar crear encima un sistema de Búsqueda de respuestas sencillo.