Recuperación de Información: 2009

viernes, 13 de noviembre de 2009

Operadores de Búsqueda

BUSQUEDAS EN INTERNET

Con la creación de Internet, sus creadores no se imaginaron el alcance, la ayuda, las consecuencias sociales y sobre todo su complejidad en contenido. De allí uno de los graves problemas, su gran contenido, su alcance y su organización.

A principios de este año se reunieron expertos en la Universidad Politécnica de Madrid para tratar estos temas tan interesantes, y que deben ser nuestra diaria preocupación como administradores de información.

Entender Google y las busquedas en internet

OPERADORES DE BUSQUEDA

Aquí encontraremos una  ayuda básica para iniciar nuestra búsqueda en línea

Para capturar la información que está en internet, que son miles y miles de páginas web con contenidos con información de interés para muchas personas. Al ser el contenido infinito se convierte en un problema en lugar de una solución. Pero el verdadero problema no es la cantidad sino la forma cómo buscamos esa información. Para todo problema hay una solución y es aquí donde encontramos elementos fundamentales para nuestra realizar nuestra búsqueda “Operadores de Búsqueda” son las formulas que nos facilitan y nos arrojan resultados filtrados de lo que realmente estamos buscando.

Bolean Operation

Operadores lógicos booleanos

Pero no solo tenemos operadores Booleanos, los profesionales más hábiles para esta clase de búsquedas son los de la rama de la Medicina - Información para el usuario.

BUSQUEDA: CON COMBINACIONES BOOLEANAS

Ya tenemos conocimiento de las ayudas para acceder a la información de una manera más rápida y eficiente, pero una buena combinación de estos operadores nos llevará casi que exactamente a lo que estamos buscando, esto se denomina búsquedas avanzadas…... que tan interesante lo que se consigue con una apropiada búsqueda.

Como nuestra meta es ayudar al usuario en la búsqueda de información de una manera rápida, eficiente, eficaz utilizando lo que tenemos a nuestro alcance, aquí les presentamos algunas opciones.

Nuestro interés fue presentar a los inquietos en la búsqueda de información herramientas para facilitar el acceso a la misma. Si tiene inquietudes o comentarios por favor escribanos a proyecto_aula@gruposyahoo.com

miércoles, 14 de octubre de 2009

Búsquedas de expresiones en Google, Yahoo y Bing

El objetivo de esta clase fue plantear una serie de expresiones de búsqueda usando lo aprendido en clase hasta el momento tales como estra
tegias y procesos estructurados de búsqueda

Ejemplo de un ejercicio realizado en clase:

Luego de obtener estos valores se realizo una análisis del comportamiento de estos en cada uno de los buscadores nombrados, con cada una de las expresiones y entre ellas mismas.

¡Clase interesante!

martes, 6 de octubre de 2009

Identificar y comprender la Web como una colección documental mixta

Tutoria 3 - Objetivos

Buscar e Instalar un programa del tipo Spider/Crawler (Herramienta HTTRACK) que permita descargar en su computadora todos los archivos de un sitio web de una unidad de Información.

Instale y configure un Sistema de Búsqueda e Indización (SWISH-E) que permita interactuar sobre los contenidos descargados o establecer una serie de preguntas, que demuestren que efectivamente se ha dado solución a los problemas que pueda tener la colección, evaluar los resultados presentados en cada caso.

Investigar el funcionamiento de la herramienta Google Custom Search y Digidocindex,crear un buscador personalizado para el sitio web seleccionado.

Clase tutoría 3

sábado, 3 de octubre de 2009

Demanda documental

Clases Sep 28 y Oct 02 /2009

Identificación del Problema de la Búsqueda

La principal dificultad de los usuarios en las etapas de búsqueda son:

Buscando Información

Presentar los temas a delimitar
Presentan búsquedas imprecisas
No hay conciencia el trabajo de la búsqueda documental
No se conocen los instrumentos de búsqueda
Esperar que el título responda a su consulta
No utilizan instrumentos que facilitan la consulta
No se comprende las distintas formas de presentar la información: imagenes y demas
No se sabe leer los textos documentales

Obtenido la información ocurre que: acumulan la información sin ningún método selectivo, no se considera la consulta de distintas fuentes y la distincion de los niveles informativos.

y la reelaboración de la informacion: no se realizan sintesis personales, se presentas dificultades para reformular los contenidos en un lenguaje claro y no se citan las fuentes de información.

Tipos de busqueda

Documentación: Localizar las referencias bibliográficas, como documentos y copias
Factográfica: Documentar lo hechos concretos
De actualización: Encontrar información sobre avances en un tema
Retrospectiva: parte de la necesidad de un problema

Pregunta ¿Cómo participa el profesional de la información en las etapas de búsqueda de la misma en ese mar de información en que navega?

Enocontremos la respuesta en la lectura "¿Google como herramienta alterna para los profesionales de "ciencias de información?" de Diego Andrés Campos

Estrategias de Búsqueda - Pasos de una estrategia de búsqueda

Precisar el tema, responde a la pregunta ¿Qué estoy buscando?
Definir o aclarar el tema, atributos que ayudan a delimitar el tema
Elección de términos de búsqueda, palabras claves normalizadas
Selección de fuentes de información, respuesta a la pregunta ¿Dónde buscar?
Ejecución de la búsqueda, ahora a buscar

Importancia de resaltar aca lenguajes normalizados: tesauros, lista de encabezamientos, vocabularios y índices de directorios de buscadores.

Tesauros: Lista de términos normalizados (descriptores) que describen las ideas claves de un área tematica, en los tesauros se da la especificidad de los términos por esta razón es necesario una expansión de los términos, es decir crear listas de términos relacionados estadísticamente.

Para salir de los procesos tradicionales de búsqueda de información leamos estas dos hojas de Jesus Tramullas.

lunes, 28 de septiembre de 2009

Archivo de configuración para Indizador Swish-e

Hola,

Este concepto propio surge de una práctica en clase con el indizador Swish-e, ya que la consola de comandos de swish-e funciona para colecciones texto, en cambio para otros tipos de formato como pdf .doc .htm .jpg .txt .gif .html, xml, entre otros requiere de un archivo con unos parámetros que permiten las búsquedas en swish-e de la información que se encuentran en estos formatos ya nombrados.

Veamos una forma sencilla de trabajar con este archivo de configuración, tomando como referencia el documento "MEMORIAS DE PRÁCTICAS EN EL USO DEL INDIZADOR SWISH-E" del profesor Laureano Felipe Gómez D.

Siga los siguientes pasos:

Paso 1: Abra un documento bloc de notas

Paso 2: Consulte el documento guía "MEMORIAS DE PRÁCTICAS EN EL USO DEL INDIZADOR SWISH-E" y busque el titulo "indizando distintos formatos de archivos", lea esa parte del documento y comprenda el porque y para que del archivo de configuración.

Paso 3: Lea parámetros del Sistema, y guíese por los ejemplos:

Paso 4: Finalmente debe salir un archivo.txt con la siguiente información básica, este ejemplo fue hecho para varios tipos de archivos "pdf .doc .htm .jpg .txt .gif .html"

Notas importantes: Para ejecutar e ste archivo en swish-e use el comando -f mas el nombre del archivo.txt

Con el fin de evitar errores en la ejecución de este archivo, se deben revisar muy bien los parámetros y usar los que se consideren necesarios para el correcto funcionamiento, se debe aclarar que en el documento base existen mas parámetros que se pueden utilizar al momento de realizar este archivo.

Gracias.

miércoles, 23 de septiembre de 2009

Problemas de los Lenguajes de Consulta

Existen muchas Tipos de representación de información:

Lenguaje natural: en que empleamos normalmente para comunicarnos
Lenguaje natural restringido: es un subconjunto del lenguaje natural, es decir es un lenguaje controlado
Lenguaje artificial o lenguaje informático, es una representación compacta.

Básicamente la problemática que generan estos lenguajes (lenguaje usuario, normalizado y artificial) es el ruido documental, por lo anterior es vital que al momento de realizar una búsqueda se planee un proceso previamente definido y estructurado, llevando el siguiente orden.

Definición de las necesidades de información
Selección de las fuentes
Formulaciones de expresiones
Ejecución de expresiones
Revisión de resultados

Para complementar la siguiente lectura " Procesamiento del Lenguage Natural " (NLP)

sábado, 19 de septiembre de 2009

Memoria Clase 12

18 de Septiembre de 2009

MEMORIAS CLASE 12

Para complementar lo dicho, se adjunta el video:

martes, 15 de septiembre de 2009

Memoria Clase 10

11 de septiembre de 2009

Problema de los Lenguajes de Consulta y Recuperación de
Información

La recuperación de información tienes sus orígenes desde que el ser humano se vio en la necesidad de tener información confiable, efectiva, verás y elocuente, problema que se ha venido acrecentado por la cantidad de información y conocimiento que se encuentra en la web pero que genera infoxicación por la baja estructuración y normalización que existe frente a todo lo que la compone.

Dichas necesidades están enmarcadas en la búsqueda de respuestas exactas al vacío del conocimiento, cuando esta información es recuperada se puede determinar que ya hubo una satisfacción. Ahora bien son varias las barreras que permiten que se haga o no una recuperación efectiva y que se obtenga un verdadero índice intelectual y satisfactorio, algunos de éstos problemas son: poca definición sobre la búsqueda, barrera tecnológica, bajo uso de herramientas de recuperación, no se delimita la búsqueda, etc.

Ahora bien una vez desarrollado todas las necesidades enmarcadas a la insatisfacción de información se inicia a Recuperar la misma, éste proceso se puede definir como la utilización de términos “Para indexar y recuperar documentos, recuperar puede consistir en especificar un conjunto de términos que deben hallarse entre los índices de un documento, estableciendo un ranking de relevancia”

Otro procedimiento para recuperar información es la extracción de información definida como “la búsqueda manual o automática de palabras, párrafos o trozos de textos que contengan información relevante buscada y presentarla de forma estructurada”

La información se debe determinar y clasificar según su tipo de estado para asegurar una recuperación eficiente, estos tipos están dados por el lenguaje que se utilice ya sea natural o artificial, y las ayudes que se adecuen a la recuperación de la información.

Fuentes recomendadas: Exposición de Clase - segunda parte

lunes, 7 de septiembre de 2009

Memoria Clase 8

04 de Septiembre de 2009

EXTRACCION DE INFORMACION

La definición de necesidad de información se identifica como un hueco que se tiene de la información y se debe rellenar con información. Existen dos clases de necesidad de información, para Frans & Brush (1988):

1) CIN Necesidad de Información concreta, en la cual la necesidad es, por ejemplo, un dato exacto, fecha de nacimiento de xx. A pregunta concreta respuesta concreta. Al realizar esta búsqueda tan específica no se encuentra la respuesta específica, la mayoría de veces la respuesta concreta se encuentra dentro de un documento.

2) NIOP Necesidad de información orientada al objeto, para la satisfacción de esta necesidad se debe tener en cuenta hasta qué punto se cubre esta necesidad de información y que la necesidad cambia con el tiempo, total de población en Colombia, cada día nacen y mueren personas.

Existen muchas definiciones de Recuperación de información, entre los que encontramos a

INGWERSEN: para quien la RI es un problema de espacios conceptuales, eso es un problema de gestión de conocimiento. Es el paso de un estado actual al estado necesario, tomado éste último como llenar espacios conceptuales.

BELKIN: Estado anormal de conocimiento que manifiesta carencia informacional y problema de estructuras mentales.

Para RICARDO BAEZA-YATEZ (quien es vicepresidente de investigación para Europa y Amèrica Larina de Yahoo Research, Sus intereses de investigación incluyen algoritmos y estructuras de datos, recuperación de información, minería de la Web, bases de datos de texto e imágenes, y visualización de software y bases de datos. (Información tomada de: http://www.dcc.uchile.cl/~rbaeza/spanish.html) La RI es un conjunto, tarea, procesos, mediante el cual un usuario localiza y accede a recursos, información RELEVANTE (importancia pertinente al usuario) que le ayudan a resolver su problema informacional.

En la RI por encontrase demasiada información es importante y se debe indizar. La máquina que es el medio por el cual se realiza la búsqueda establece unos niveles de RELEVANCIA (importancia del documento – orden de importancia)
También se puede entender como tareas y procesos mediante los cuales el usuario localiza y accede a recursos de información RELEVANTE, los cuales eliminan información inútil y permite reducir el estado anómalo del conocimiento.

La recuperación de información no es encontrar patrones

La extracción de información es la búsqueda de información donde no importa el orden de los resultados sino seguir unas reglas predeterminadas y encontrar documentos que cumplan con esas reglas. Ejemplo SPAM, se puede direccionar correos que contengan ciertas palabras o frases a SPAM, (correos que su contenido sea sexo, viagra, digite su cuenta, etc)

La recuperación de información se hace de una colección de documentos: la acción es recuperar los documentos RELEVANTES (que cumplan reglas lógicas) EXTRAER este documento que cumplan las reglas, separarlos y así obtener una serie de documentos EXTRAIDOS.

viernes, 4 de septiembre de 2009

Memoria Clase 7

31 de agosto de 2009

Este día se realizo un tutorial de los siguientes Software:

TENKA-TEXT-0.1.3.4.zip
TextSTAT-2.exe
antconc3.2.1w.exe
idzebra_2.0.36.exe

Estas herramientas generan índices para interpretarlos y hallar la frecuencia de los términos , para usarlos en nuestro trabajo de Google desktop search y Windows desktop searh, cada una de estas herramientas solo acepta formatos TXT y tiene diferentes maneras de mostrar los índices y de analizarlos.

Ahora bien, para mostrar lo aprendido en clase, expondremos una de las 4 "antconc3.2.1w.exe", puesto que para nuestro trabajo tutorial será usada, por ser muy sencilla.

Herramientas de Indizacion

miércoles, 2 de septiembre de 2009

Memoria Clase 6

28 de Agosto de 2009

“El Mundo Según Google” y “La Espina Dorsal de la Noche”

Se manejaron dos temáticas a través videos:

El primero de los videos fue el Mundo según Google (en español) este video trata de la historia del internet, describe la empresa Google, sus empleados y los servicios que han desarrollado, algunos de los principales servicios que están siendo desarrollados por Google son:

Google Reader, Google Docs, Traductor, alertas, fotos, Google Earth, Google Maps y Google Books , este ultimo el cual trata de la digitalización de bibliotecas. En la web se encuentra el video divido en 5 partes, aunque vamos a ver el de Google Books, ya que es de alto interés para nuestra profesión.

La “espinal Dorsal de la Noche” Episodio 7 de la colección Cosmos, narra el descubrimiento del Cosmos a través de diferentes autores que han existido en la historia, este video es bastante interesante porque Carl Sagan cuenta una investigación científica de una manera muy sencilla y compresible.

El docente índico que del video de Google saldrán preguntas en el examen final, mas de Carl Sagan no saldrán.

viernes, 28 de agosto de 2009

Memoria Clase 5

24 de agosto de 2009

Introducción a la Recuperación de Información

Uno de los sistemas de recuperación de información está determinado por la indización también conocido en entornos informáticos como indexación. Éste procedimiento está dado por el uso adecuado de la información y por la recuperación de los términos que éste contiene, con el fin de permitir una captura adecuada, exacta y más próxima a las necesidades del usuario. Lo que busca la indización es crear tablas o listas que permitan generar los términos que están contenidos en secuencia taxonómica para realizar búsquedas de comparación, similitud o en tal caso con el uso de operadores que permitan tener más exactitud en el resultado.

Véase: El diccionario electrónico: un instrumento para la unificación de términos en la indización automática

Ahora bien una vez realizada la indización de un sistema se puede estructurar los sets o los criterios que se desean determinar para recuperar la información, algunos conocidos como palabras claves, descriptores, lenguajes documentales, números de clasificación o encabezamientos de materia todo relacionado con el lenguaje controlado y normalizado.

Otro método para el sistema de recuperación de información es el conocido como archivo invertido, definido como “Archivo auxiliar de una base de datos o de un catálogo, que se organiza por alguno de los elementos o características contenidas en los registros de la base principal (por ej., descriptor, autor, etc.), y remite a los registros que la incluyen. Es especialmente apto para facilitar un mínimo control terminológico en sistemas por lenguaje natural.” Los archivos invertidos se componen de un vocabulario conformado por la cantidad de términos recuperados como índices y de ocurrencias basadas en la proximidad y similitud de las búsquedas.

miércoles, 26 de agosto de 2009

Memoria - Clases 3 y 4

10 y 21 agosto de 2009
Clases del 10 al 21 de agosto de 2009
En estas fechas se trabajo conceptos básicos con el fin entrar en contexto con la materia de recuperaciòn de informacion, se realizo un quiz referente al tema de términos relacionados con la asignatura y diferencias entre ellos, "Etiqueta, Descriptor, Palabra clave y Encabezamiento de materia"

jueves, 6 de agosto de 2009

Memoria Clase 2

Este dìa se realizo el primer tutorial del "trabajo de recuperacion de información" para presentar el 07 de septiembre de 2009:

El siguiente documento muestra la explicación dada en clase para para realizar este trabajo

MEMORIAS CLASE 2

lunes, 3 de agosto de 2009

Memorias Clase 1

Viernes, 31 de Julio de 2009

El propósito de ésta asignatura es desarrollar en el estudiante habilidades y conocimientos afines con la búsqueda, recuperación y análisis de las fuentes de información haciendo uso de las herramientas tecnológicas y software existentes que apoyen la búsqueda efectiva y eficiente de información.

Se inició la clase con la presentación y explicación del Syllabus, donde se definen: temas, actividades, calificaciones y otros aspectos relacionados con el comportamiento en clase.

Durante el semestre se realizará un proyecto que involucra cuatro temas principales que se desarrollaran en torno a cuatro colecciones definidas previamente por el docente. Dentro de las temáticas están:

1. La recuperación de Información y los Sistemas de Recuperación de información -SRI-
2. Arquitectura de la Recuperación de la Información -RI-
3. Análisis de Dominio de los SRI
4. Técnicas Search Engine Optimization -SEO- (Optimización para motores de búsqueda)

Recomendados:

Recuperación de Información