16 jul 2010

Recuperação de Informação

Sem comentários Teóricos

Recuperação de Informação ou RI é o termo designado para a área da computação que lida com armazenamento de documentos e a recuperação automática de informações associadas a eles. Em outras palavras, o termo indica a capacidade que um usuário tem de acessar informações armazenadas em um meio.

Para melhor exemplificar com exemplos cotidianos, iremos tomar a Web como meio de acesso a estas informações.

Na Web, as formas de recuperação de dados normalmente utilizadas são:

  • Consultas
    • Ranking
    • Metadados
    • Indexação
    • Métodos de pesquisa
    • Sessões e Cookies
    • Report
    • Analytics

CONSULTAS

Ranking

Como exemplo de ranking de páginas podemos citar o incomparável Google, que conta com um algoritmo exclusivo para classificar suas páginas. Mas o que leva uma página a ter uma melhor colocação em um ranking do que outra?

O algoritmo do PageRank (ranking da Google) foi inventado em 1998 pelo criadores do Google (Larry Page e Sergey Brin), desde então a base de dados de sua empresa armazena bilhões de sites da web que são organizados por relevância de votos recebidos. Este voto concebido a um determinado site da rede é dado apenas com a adição de um link para uma outra página. Está página acaba então sendo indicada para algum usuário deste e então é gerado um voto para o PageRank. Simples não? Nem tanto, o algoritmo faz o “peso do voto” valer de acordo com a sua relevância. Por exemplo:

  • Um link para seu site no site da Globo.com – 10 pontos
  • Um link para seu site no site do Jornal Aqui! – 3 pontos

Salve as comparações ilusórias, é assim que funciona a relevância de sites. O site em questão que tenha um “voto de melhor qualidade” será mais bem posicionado nesta qualificação. Em caráter comparativo da lista (utilizando porcentagem), se um site tem PageRank de 20%, quer dizer que ele é 20% superior a páginas qualificadas inferiormente que ele, se tem 99%, quer dizer que este é 99% superior ao total de página cadastradas pelo Google. O algoritmo é inteligente e elimina as páginas (ou links) quebrados de sua lista.

Metadados

Os metadados são informações ocultas no cabeçalho das páginas Web que contem informações especificas. Os buscadores (chamados também de robots ) dos sites de pesquisa “varrem” estes metadados a fim de encontrar dados relacionados com a palavra-chave buscada na pesquisa. Um exemplo:

>

Explicando melhor:

Toda marcação <meta> contem atributos “name” e “content”. No atributo “name” é especificado o tipo de metadados que será atribuído a marcação e no “content” seu conteúdo.

  • Keywords – São palavras chaves que os buscadores (robots) irão pesquisar. O campo aceita quanto itens o desenvolvedor inserir, porem o Google penaliza grandes quantidades de palavras-chaves, mas tome muito cuidado com o Google Bomb;
  • Description – É utilizado para dar a definição do site em resultados de pesquisas.
  • Robots – O desenvolvedor poderá determinar a ação de buscadores na página. Podendo permitir todos os buscadores (Google, Ask, Bing, Yahoo e etc…), negar acesso a todos ou escolher em quais deseja ser exibido.
  • Language – Informa qual o idioma oficial dá página.
  • City – Define a cidade de origem do site.
  • Country – Define o país de origem do site.
  • Classification – Qual o tema do site.
  • Owner – Poderá ser utilizado para guardar o nome do desenvolvedor (ou proprietário) da página.

Todas estas marcações ajudam a melhor posicionar o site nos buscadores ou definir regras de acesso pelos mesmos.

Indexação

O buscador (robot) utiliza a palavra-chave utilizada em sua busca no conteúdo de suas páginas guardadas. Este resultado normalmente é o foco das pesquisas onde o usuário normalmente solicita um determinado assunto e obtêm resultados salvos em alguma página de um dos sites da lista.

&lt; !DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Strict//EN" "http://www.w3.org/TR/html4/strict.dtd"&gt;
 
Hoje iremos falar sobre recuperação de informação!

O conteúdo citado é todo o texto que se encontra dentro da marcação <body> de uma página.

Métodos de pesquisa

Mais uma vez tomando como exemplo o nosso gigante das buscas, poderemos explicar melhor os conceitos de consultas explicados anteriormente.

Quando utilizamos o a busca deste site, a recuperação de informação é feita com base nos documentos já armazenados pelo Google, variando entre metadados ou indexação normalmente e sempre respeitando a colocação destes em seu PageRank.

Formas especiais de consulta:

Suponhamos que nossa pesquisa se baseie em copa de futebol. O Google por padrão ignora alguns artigos e substantivos e irá procurar por qualquer ocorrência de copa futebol nos sites. A incidência de palavras em negrito na descrição dos resultados mostra como a busca foi realizada, neste caso ignorando o “de” dos itens digitados

  • Sinal de (+)
    • Caso o sinal de (+) seja inserido antes de algum artigo ou substantivo na caixa de pesquisa, este se tornará essencial, sendo obrigatório o aparecimento destes nos resultados.

  • Sinal de (-)
    • Ignora da pesquisa qualquer palavra precedida por este caractere.

Observe que utilizando a mesma pesquisa com o adicional - FIFA, os resultados que antes estavam na primeira colocação deixaram de existir.

  • Operador OR
    • Informa que a pesquisa deverá mostrar resultados de todos os itens separados por este operador independente de todos existirem ao mesmo tempo:
  • Sinal de (~)
    • Busca por qualquer palavra sinônima ou parecida com o foco da busca.
  • Frases entre aspas (“”)
    • Ao contrario da busca normal, que procura por fragmentos do que foi buscado, este método busca exatamente o conteúdo contido entre as aspas, é o método mais indicado para chegar direto a um assunto.

  • Intervalo numérico (…)
    • Utilizado para mostrar todo o conteúdo entre dois números. Por exemplo, se pesquisarmos por Presidentes do Brasil 1950 2010, a pesquisa irá retornar dados relacionados somente a 1950 e 2010, mas caso coloquemos o intervalo entre as datas (para que seja pesquisado Presidentes do Brasil 1950… 2010), a pesquisa irá mostrar todos os anos entre as datas no resultado exibido.

  • Tipos de arquivos
    • Permite procurar por extensões que estejam relacionadas ao assunto pesquisado. Por exemplo, caso seja digitado Pink Floyd filetype:avi , a pesquisa irá retornar links diretos para arquivos.

  • Estou com sorte
    • Não exibe a página de resultados. Simplesmente leva á primeira página de seu ranking relacionada com o assunto digitado.
  • Pesquisa avançada
    • Permite controlar a forma com que os resultados são exibidos na tela e em algumas opções retorna resultados parecidos com os caracteres de pesquisa citados acima.

Sessões e Cookies

Sessão

São variáveis de programação que armazenam dados estabelecidos pelo site por um tempo determinado.

Cookies

Quando temos grandes conjuntos de informações ou configurações, o Cookies armazena e oferece leitura/escrita a este afim de assim como na sessão armazenas dados importantes para a navegação, acabam sendo um extensor das sessões. A diferença é que estes só são removidos do computador por limpeza ou tempo de expiração.

A Sessão ou Cookies, armazena dados relacionados à conexão ativa por um tempo indefinido, normalmente implementado com base em alguma regra por seus desenvolvedores. Podemos ver exemplos claros destes recursos sem muito trabalho em sites de compras que armazenam informações do computador (ou o computador pode guardar informações do site, no caso dos Cookies) onde este recurso interessantemente é implementado como facilitador para o usuário, que não precisará novamente procurar informações do produto ou realizar outras configurações no site para continuar a navegação.

Report

Recurso interessante que normalmente passam despercebidos. Atualmente alguns programas quando param de funcionar, exibem uma tela para que o usuário possa reportar o erro para o fabricante. Normalmente quando o usuário aceita este procedimento, dados sobre o motivo do programa ter parado são enviadas para o fabricante, que analisa a criticidade do problema e poderá talvez corrigir o problema em novas versões do software. Além desta caixa de erro, outra forma de report que não acontece somente no surgimento de problemas pode ser normalmente notada na instalação de alguns programas, que questionam o usuário em sua instalação se desejam enviar informações da execução do programa, para que estas direcionem dados para analise de seus fabricantes.

Analytics

A ferramenta Analytics da Google é um sistema que permite monitorar por completo todas as estatísticas de um determinado site, vinculado a uma conta do mesmo autor. Após a implementação do código único no HTML do site, todas as visitas, páginas acessadas, estatísticas em geral do site serão enviados para o Google em forma de recuperação de informação e consequentemente podendo ser acessadas e ter seu detalhamento feito no google.com/analytics.

Como principais recursos das estatísticas, temos:

  • Visitas de um determinado período no site
  • Exibições de página
  • Páginas por visita
  • Taxa de rejeição
  • Tempo médio no site
  • Porcentagem de novas visitas

A amostragem de gráficos também é um recurso bastante explorado para os desenvolvedores e anunciantes, que podem obter precisão sobre os locais de maior acesso em suas páginas:

Com o detalhamento, podemos ter acesso a diversas informações sobre como a página foi acessada:

  • Navegadores utilizados para acessar a página
  • Buscadores que levaram até a página; Palavras chaves mais utilizadas que levam a página
  • Sistemas operacionais utilizados
  • Resoluções de tela
  • Se possui suporte a Java, Flash
  • Qual idioma padrão
  • Localização (Cidade, Estado, País)
  • E mais dezenas de classificações…

Bom, o assunto é extenso é contempla vários métodos que podem ser utilizados desde a melhor colocação de seu site no google até a recuperação de dados importantes para o crescimento de seu portal…

Obrigado e até a proxima!

Artigos relacionados...

  1. iArtWork – Capas de Álbuns no seu iTunes automaticamente
  2. Plugins Firefox para Desenvolvedores
  3. Atualize seu navegador… e de seus visitantes!
  4. Conexão PHP/MySQL – Utilizando a função mysql_connect()
  5. jQuery Meio Mask – Máscara para input
Tags: , , , , ,
written by
Um certo alguém buscando mais conhecimento...
Artigos relacionados
Sem respostas para “Recuperação de Informação”

Faça um comentário! É importante saber sua opinião.