Recuperación de Información: septiembre 2009

lunes, 28 de septiembre de 2009

Archivo de configuración para Indizador Swish-e

Hola,

Este concepto propio surge de una práctica en clase con el indizador Swish-e, ya que la consola de comandos de swish-e funciona para colecciones texto, en cambio para otros tipos de formato como pdf .doc .htm .jpg .txt .gif .html, xml, entre otros requiere de un archivo con unos parámetros que permiten las búsquedas en swish-e de la información que se encuentran en estos formatos ya nombrados.

Veamos una forma sencilla de trabajar con este archivo de configuración, tomando como referencia el documento "MEMORIAS DE PRÁCTICAS EN EL USO DEL INDIZADOR SWISH-E" del profesor Laureano Felipe Gómez D.

Siga los siguientes pasos:

Paso 1: Abra un documento bloc de notas

Paso 2: Consulte el documento guía "MEMORIAS DE PRÁCTICAS EN EL USO DEL INDIZADOR SWISH-E" y busque el titulo "indizando distintos formatos de archivos", lea esa parte del documento y comprenda el porque y para que del archivo de configuración.

Paso 3: Lea parámetros del Sistema, y guíese por los ejemplos:

Paso 4: Finalmente debe salir un archivo.txt con la siguiente información básica, este ejemplo fue hecho para varios tipos de archivos "pdf .doc .htm .jpg .txt .gif .html"

Notas importantes: Para ejecutar e ste archivo en swish-e use el comando -f mas el nombre del archivo.txt

Con el fin de evitar errores en la ejecución de este archivo, se deben revisar muy bien los parámetros y usar los que se consideren necesarios para el correcto funcionamiento, se debe aclarar que en el documento base existen mas parámetros que se pueden utilizar al momento de realizar este archivo.

Gracias.

miércoles, 23 de septiembre de 2009

Problemas de los Lenguajes de Consulta

Existen muchas Tipos de representación de información:

Lenguaje natural: en que empleamos normalmente para comunicarnos
Lenguaje natural restringido: es un subconjunto del lenguaje natural, es decir es un lenguaje controlado
Lenguaje artificial o lenguaje informático, es una representación compacta.

Básicamente la problemática que generan estos lenguajes (lenguaje usuario, normalizado y artificial) es el ruido documental, por lo anterior es vital que al momento de realizar una búsqueda se planee un proceso previamente definido y estructurado, llevando el siguiente orden.

Definición de las necesidades de información
Selección de las fuentes
Formulaciones de expresiones
Ejecución de expresiones
Revisión de resultados

Para complementar la siguiente lectura " Procesamiento del Lenguage Natural " (NLP)

sábado, 19 de septiembre de 2009

Memoria Clase 12

18 de Septiembre de 2009

MEMORIAS CLASE 12

Para complementar lo dicho, se adjunta el video:

martes, 15 de septiembre de 2009

Memoria Clase 10

11 de septiembre de 2009

Problema de los Lenguajes de Consulta y Recuperación de
Información

La recuperación de información tienes sus orígenes desde que el ser humano se vio en la necesidad de tener información confiable, efectiva, verás y elocuente, problema que se ha venido acrecentado por la cantidad de información y conocimiento que se encuentra en la web pero que genera infoxicación por la baja estructuración y normalización que existe frente a todo lo que la compone.

Dichas necesidades están enmarcadas en la búsqueda de respuestas exactas al vacío del conocimiento, cuando esta información es recuperada se puede determinar que ya hubo una satisfacción. Ahora bien son varias las barreras que permiten que se haga o no una recuperación efectiva y que se obtenga un verdadero índice intelectual y satisfactorio, algunos de éstos problemas son: poca definición sobre la búsqueda, barrera tecnológica, bajo uso de herramientas de recuperación, no se delimita la búsqueda, etc.

Ahora bien una vez desarrollado todas las necesidades enmarcadas a la insatisfacción de información se inicia a Recuperar la misma, éste proceso se puede definir como la utilización de términos “Para indexar y recuperar documentos, recuperar puede consistir en especificar un conjunto de términos que deben hallarse entre los índices de un documento, estableciendo un ranking de relevancia”

Otro procedimiento para recuperar información es la extracción de información definida como “la búsqueda manual o automática de palabras, párrafos o trozos de textos que contengan información relevante buscada y presentarla de forma estructurada”

La información se debe determinar y clasificar según su tipo de estado para asegurar una recuperación eficiente, estos tipos están dados por el lenguaje que se utilice ya sea natural o artificial, y las ayudes que se adecuen a la recuperación de la información.

Fuentes recomendadas: Exposición de Clase - segunda parte

lunes, 7 de septiembre de 2009

Memoria Clase 8

04 de Septiembre de 2009

EXTRACCION DE INFORMACION

La definición de necesidad de información se identifica como un hueco que se tiene de la información y se debe rellenar con información. Existen dos clases de necesidad de información, para Frans & Brush (1988):

1) CIN Necesidad de Información concreta, en la cual la necesidad es, por ejemplo, un dato exacto, fecha de nacimiento de xx. A pregunta concreta respuesta concreta. Al realizar esta búsqueda tan específica no se encuentra la respuesta específica, la mayoría de veces la respuesta concreta se encuentra dentro de un documento.

2) NIOP Necesidad de información orientada al objeto, para la satisfacción de esta necesidad se debe tener en cuenta hasta qué punto se cubre esta necesidad de información y que la necesidad cambia con el tiempo, total de población en Colombia, cada día nacen y mueren personas.

Existen muchas definiciones de Recuperación de información, entre los que encontramos a

INGWERSEN: para quien la RI es un problema de espacios conceptuales, eso es un problema de gestión de conocimiento. Es el paso de un estado actual al estado necesario, tomado éste último como llenar espacios conceptuales.

BELKIN: Estado anormal de conocimiento que manifiesta carencia informacional y problema de estructuras mentales.

Para RICARDO BAEZA-YATEZ (quien es vicepresidente de investigación para Europa y Amèrica Larina de Yahoo Research, Sus intereses de investigación incluyen algoritmos y estructuras de datos, recuperación de información, minería de la Web, bases de datos de texto e imágenes, y visualización de software y bases de datos. (Información tomada de: http://www.dcc.uchile.cl/~rbaeza/spanish.html) La RI es un conjunto, tarea, procesos, mediante el cual un usuario localiza y accede a recursos, información RELEVANTE (importancia pertinente al usuario) que le ayudan a resolver su problema informacional.

En la RI por encontrase demasiada información es importante y se debe indizar. La máquina que es el medio por el cual se realiza la búsqueda establece unos niveles de RELEVANCIA (importancia del documento – orden de importancia)
También se puede entender como tareas y procesos mediante los cuales el usuario localiza y accede a recursos de información RELEVANTE, los cuales eliminan información inútil y permite reducir el estado anómalo del conocimiento.

La recuperación de información no es encontrar patrones

La extracción de información es la búsqueda de información donde no importa el orden de los resultados sino seguir unas reglas predeterminadas y encontrar documentos que cumplan con esas reglas. Ejemplo SPAM, se puede direccionar correos que contengan ciertas palabras o frases a SPAM, (correos que su contenido sea sexo, viagra, digite su cuenta, etc)

La recuperación de información se hace de una colección de documentos: la acción es recuperar los documentos RELEVANTES (que cumplan reglas lógicas) EXTRAER este documento que cumplan las reglas, separarlos y así obtener una serie de documentos EXTRAIDOS.

viernes, 4 de septiembre de 2009

Memoria Clase 7

31 de agosto de 2009

Este día se realizo un tutorial de los siguientes Software:

TENKA-TEXT-0.1.3.4.zip
TextSTAT-2.exe
antconc3.2.1w.exe
idzebra_2.0.36.exe

Estas herramientas generan índices para interpretarlos y hallar la frecuencia de los términos , para usarlos en nuestro trabajo de Google desktop search y Windows desktop searh, cada una de estas herramientas solo acepta formatos TXT y tiene diferentes maneras de mostrar los índices y de analizarlos.

Ahora bien, para mostrar lo aprendido en clase, expondremos una de las 4 "antconc3.2.1w.exe", puesto que para nuestro trabajo tutorial será usada, por ser muy sencilla.

Herramientas de Indizacion

miércoles, 2 de septiembre de 2009

Memoria Clase 6

28 de Agosto de 2009

“El Mundo Según Google” y “La Espina Dorsal de la Noche”

Se manejaron dos temáticas a través videos:

El primero de los videos fue el Mundo según Google (en español) este video trata de la historia del internet, describe la empresa Google, sus empleados y los servicios que han desarrollado, algunos de los principales servicios que están siendo desarrollados por Google son:

Google Reader, Google Docs, Traductor, alertas, fotos, Google Earth, Google Maps y Google Books , este ultimo el cual trata de la digitalización de bibliotecas. En la web se encuentra el video divido en 5 partes, aunque vamos a ver el de Google Books, ya que es de alto interés para nuestra profesión.

La “espinal Dorsal de la Noche” Episodio 7 de la colección Cosmos, narra el descubrimiento del Cosmos a través de diferentes autores que han existido en la historia, este video es bastante interesante porque Carl Sagan cuenta una investigación científica de una manera muy sencilla y compresible.

El docente índico que del video de Google saldrán preguntas en el examen final, mas de Carl Sagan no saldrán.

Recuperación de Información