e-Database: abril 2009

sábado, 4 de abril de 2009

A Ressaca da globalização

Edição de Artigos de Sábado do Alerta Total http://www.alertatotal.blogspot.com
Adicione nosso blog e podcast aos seus favoritos.

Por Adriano Benayon

Se não quisermos sofrer males ainda maiores que os que vêm assolando nosso País, temos de saltar fora da globalização com urgência. Ela é como um trem em acelerado em direção ao abismo. Mesmo que pular do trem cause algum incômodo, mais vale não nos deixarmos espatifar.
Outra metáfora, válida para todo o Planeta, é comparar a globalização à intoxicação por bebida alcoólica ou por droga entorpecente. Seus terríveis efeitos surgem antes mesmo de cessar a ingestão dos tóxicos.
O tema central do livro Globalização versus Desenvolvimento, cuja 1ª edição foi publicada há onze anos (1998), é a demonstração de ser o desenvolvimento incompatível com a abertura indiscriminada da economia e com o controle dela por capitais estrangeiros.
Essa situação leva a ter política econômica comandada do exterior. Isso transformou a estrutura da economia, tornando mais primário o padrão de produção. Fez, por exemplo, as exportações dependerem cada vez mais de recursos naturais. Em suma, o País regride tecnologicamente, e aumentam as transferências para o exterior.
Venho apontando que, nos EUA e na Europa, entre outros lugares, o colapso financeiro está rapidamente degenerando também em colapso econômico e social. Nos EUA, por exemplo, as demissões estão ocorrendo ao ritmo de 1 milhão por mês. No Brasil foram 600.000 em dezembro e mais de 100.000 em janeiro.
Há tempos, exponho ser enganoso o discurso que afirma estar o Brasil preparado para enfrentar a “crise” mundial. No artigo “Contas externas vulneráveis”, publicado em A Nova Democracia, nº 42, abril de 2008, tratei da vulnerabilidade estrutural da economia brasileira, quase que totalmente desnacionalizada, a inviabilizar as decisões de política econômica necessárias ao desenvolvimento.
Em trabalhos subseqüentes deixei claro que as reservas externas do Banco Central - da ordem de US$ 200 bilhões hoje, pois já foram maiores - podem pulverizar-se em função de simples mudança de conjuntura.
No artigo “Investment grade ou Brasil atrás das grades?”, publicado nº 43, maio de 2008, expus o engodo que foi a elevação da cotação do Brasil pelas agências internacionais de risco de crédito. Elas próprias não merecem crédito algum, haja vista terem dado cotação máxima a títulos tóxicos, inclusive os baseados em hipotecas nos EUA, que perderam depois todo seu valor de mercado.
Em “A nova crise do real”, escrito em agosto e publicado em A Nova Democracia, nº 46, setembro de 2008, disse estar em gestação, para futuro pouco distante, nova crise cambial. De então até agora, o real já caiu 38% em relação ao dólar.
O pior é que os efeitos no Brasil do colapso mundial ainda estão começando a se manifestar. Alguns sinais claros já estão presentes, como o da taxa de câmbio e muitos outros. Entre eles, o fato de a inadimplência das empresas ter crescido nada menos que 149% na comparação de janeiro de 2009 com janeiro de 2008.
Ademais, grandes empresas no Brasil endividaram-se grandemente no exterior em anos recentes, inclusive as transnacionais junto a suas matrizes. Com a desvalorização do real, cresce o serviço dessas dívidas. Os balanços das empresas deterioram-se por causa do câmbio, ao mesmo tempo em que cai o valor em dólares das exportações – e não apenas em função da taxa cambial - pois há brutal redução da procura externa pelos produtos exportados do Brasil.
É de notar a queda, superior a 60%, de março a dezembro de 2008, do preço das commodities (bens agrícolas e metais) no mercado mundial. O grosso das exportações brasileiras se compõe desses recursos naturais com nenhum ou pequeno grau de transformação industrial.
Esses bens ainda tiveram saldo positivo em 2008 de U$ 55,1 bilhões, viabilizando que a balança comercial do País tivesse o superávit de US$ 47,9 bilhões, apesar de déficit de US$ 7,2 bilhões por parte da indústria de transformação.
Mas houve significativa deterioração do Balanço de Pagamentos em 2008, o qual prenuncia maior afundamento em 2009, uma vez que se está acentuando o colapso nos países com que o Brasil tem relações econômicas.
Em 2008 já se registrou a maior saída líquida de divisas do País – excluindo a balança comercial – desde 1982. O último recorde foi em 2005, com US$ 32,5 bilhões. Em 2008 saíram US$ 48,9 bilhões, os quais foram insuficientemente compensados pelos US$ 47,9 bilhões do saldo comercial. Com isso, o Balanço de Pagamentos (BP) fechou com déficit de US$ 1 bilhão, o primeiro desde 2002, o ano da última crise cambial.
Excluindo as transferências unilaterais, para ficar só com o resultado das capitais e de serviços, as saídas líquidas destas contas atingiram US$ 53,6 bilhões, não obstante ter o Brasil mantido as taxas de juros mais altas do Mundo. Em princípio, altas taxas de juros atrairiam capitais para o País.
É visível também a diminuição do saldo comercial, não só pelo declínio, mês a mês, em 2008, mas também pelos resultados dos dois primeiros meses de 2009, quando somou apenas US$ 1,2 bilhão.
As transações correntes, que englobam tudo, menos o movimento de capitais, registraram, em 2008, déficit de US$ 28,7 bilhões. Até 2007 havia superávit, mas já minguando então para US$ 1,7 bilhão. Isso implica que o déficit do BP em 2008 só não foi muito maior que US$ 1,2 bilhão, porque o movimento de capitais registrou apreciável ingresso líquido, em grande parte de investimentos diretos.
Além de ser problemático que isso se mantenha, não haverá, de qualquer modo, como fechar o BP sem recurso a grande aumento da dívida externa brasileira. Mas esta já cresceu muito em 2008, e os bancos do exterior vêm negando crédito. Estão, na maioria, falidos e sobrevivem mediante a vergonhosa injeção de trilhões de dólares por parte dos governos e dos bancos centrais de seus países.
Seriam necessários mais dados para perceber que se aproxima gravíssima crise das contas externas no Brasil?
Fica para o próximo artigo atualizar a situação mundial e avaliar em profundidade a colossal negociata que, em geral, está sendo o auxílio dos governos aos bancos e outras instituições financeiras causadoras do colapso econômico. Este, a continuar o tipo de tratamento que lhe vem sendo dado, promete ser o mais profundo de todos os tempos.
Adriano Benayon, Doutor em Economia é autor de “Globalização versus Desenvolvimento”, editora Escrituras. abenayon@brturbo.com.br

Postado por Alerta Total de Jorge Serrão às 00:01 1 comentários

RDF uma primeira aproximação

A First Course in RDF and RDFS (Resource Description Framework and Resource Description Framework Schema)

View more presentations from mark.birbeck.

Como funcionará a Web 3.0

por Jonathan Strickland - traduzido por HowStuffWorks Brasil

Neste artigo

1. Introdução a Como funcionará a Web 3.0

2. O caminho para a Web 3.0

3. Fundamentos da Web 3.0

4. A Web 3.0 se aproxima

5. A Web Semântica

6. Além da Web 3.0

7. Mais informações

8. Veja todos os artigos sobre Internet

A Web Semântica

Tim Berners-Lee inventou a World Wide Web em 1989. Ele a criou como uma interface para a Internet e como um método de as pessoas compartilharem informações entre si. Berners-Lee discute a existência da Web 2.0 (em inglês), chamando-a de "nada mais do que um jargão sem sentido" [fonte: Register (em inglês)]. Berners-Lee ainda afirma que ele pretendia que a World Wide Web fizesse tudo o que Web 2.0 deve fazer.

Catrina Genovese/Getty Images
Tim Berners-Lee, o inventor da World Wide Web

A visão de Berners-Lee para a futura Web é similar ao conceito da Web 3.0. Ela é chamada de Web Semântica. Neste momento, a estrutura da Web é ajustada para os humanos. É fácil para nós visitarmos uma página da Web e compreendermos seu sentido. Os computadores não conseguem fazer isso. Um site de busca pode ser capaz de analisar palavras-chaves, mas não consegue entender como essas palavras são usadas no contexto de uma página.

Com a Web Semântica, os computadores analisarão e interpretarão as informações das páginas utilizando agentes de software. Esses agentes serão programas que navegarão através da Web, procurando informações relevantes. Eles serão capazes disso porque a Web Semântica terá conjuntos de informação chamados de ontologias. Em termos de Internet, uma ontologia é um arquivo que define as relações entre um grupo de termos. Por exemplo, o termo "primo" se refere à relação familiar entre duas pessoas que compartilham um conjunto de avós. Uma ontologia da Web Semântica definiria cada papel familiar da seguinte maneira:

avô: um ancestral direto há duas gerações do sujeito;
pais: um ancestral direto há uma geração do sujeito;
irmão ou irmã: alguém que compartilha os mesmos pais do sujeito;
sobrinho ou sobrinha: filho do irmão ou da irmã do sujeito;
tio ou tia: irmão ou irmã de um dos pais do sujeito;
primo: filho de uma tia ou de um tio do sujeito.

Para a Web Semântica ser eficaz, as ontologias precisam ser detalhadas e compreensivas. No conceito de Berners-Lee, elas existiriam na forma de metadados. Os metadados são informações incluídas nos códigos das páginas da Web e são invisíveis aos humanos, mas perceptíveis pelos computadores.

A construção de ontologias requer muito trabalho. De fato, esse é um dos grandes obstáculos que a Web Semântica enfrenta. As pessoas estarão dispostas a aplicar o esforço necessário para fazer ontologias compreensivas em seus sites? Elas irão manter essas ontologias enquanto ocorrem mudanças nos sites? Críticas sugerem que a tarefa de criar e manter tais arquivos complexos é trabalho demais para a maioria das pessoas.

Por outro lado, algumas pessoas realmente gostam de rotular ou identificar objetos e informações da Web. As identificações da Web categorizam o objeto ou informação identificados. Vários blogs incluem uma opção de identificação, tornando fácil classificar as postagens sob tópicos específicos. Sites de compartilhamento de fotos como o Flickr permitem que os usuários identifiquem as imagens. O Google até mesmo transformou isso em um jogo: o Google Image Labeler coloca duas pessoas uma contra a outra em uma disputa de identificação. Cada jogador tenta criar o maior número de identificações relevantes para uma série de imagens. De acordo com alguns especialistas, a Web 3.0 será capaz de pesquisar identificações e rótulos e mostrar os resultados mais relevantes para o usuário. Talvez a Web 3.0 combine o conceito da Web Semântica de Berners-Lee com a cultura de identificação da Web 2.0.

Embora a Web 3.0 esteja mais para teoria do que para realidade, isso não impediu que as pessoas tentassem adivinhar o que está por vir. Continue lendo para conhecer o extenso futuro da Web.

< ANTERIOR

INTRODUÇÃO

PRÓXIMA >

Neste artigo

1. Introdução a Como funcionará a Web 3.0

2. O caminho para a Web 3.0

3. Fundamentos da Web 3.0

4. A Web 3.0 se aproxima

5. A Web Semântica

6. Além da Web 3.0

7. Mais informações

8. Veja todos os artigos sobre Internet

DataGramaZero - Revista de Ciência da Informação - v.9 n.4 ago/08 NAVEGAR É PRECISO

DataGramaZero - Revista de Ciência da Informação - v.9 n.4 ago/08 NAVEGAR É PRECISO

NAVEGAR É PRECISO

A categorização das funcionalidades
http://www.cinted.ufrgs.br/renote/maio2005/artigos/a33_rooda.pdf
Categorização como um processo cognitivo
http://www.cienciasecognicao.org/artigos/v11/337170.html
Princípios de categorização nas linguagens documentárias
http://www.teses.usp.br/teses/disponiveis/27/27151/tde-30052008-152640/
Lexicologia, terminologia, ontologia e representação
http://www.bibliosperu.com/articulos/27/27_06.pdf
Sistema de classificação facetada e tesauros
http://www.scielo.br/scielo.php?pid=S0100-19652004000200017&script=sci_arttext
Sistema para indexação e recuperação de informação
http://stoa.usp.br/wiki/Construção_de_Tesauro
Praticas gerenciais voltadas à inovação
http://www.nara.org.br/GC/praticas-gerenciais-voltadas-a-inovacao-e-a-aprendizagem
Laboratório de Pesquisas Sobre Práticas Gerenciais
http://www.eac.fea.usp.br/eac/lppg/download.asp
Gestão contemporânea de práticas gerenciais
http://www.fae.edu/publicacoes/pdf/revista_da_fae/fae_v6_n2/07_Angelise.pdf
Proposta baseada em engenharia ontológica
http://www.biblioteca.pucpr.br/tede//tde_busca/arquivo.php?codArquivo=518
Informação para tomada de decisão
http://itd.bvs.br/itd-mod/public/scripts/php/page_show_menu.php?lang=pt
Elementos intervenientes na tomada de decisão
http://www.scielo.br/pdf/ci/v32n1/15969.pdf
Literatura do século XIX
http://www.mavicanet.com/directory/por/23795.html
A historiografia da ciência
http://www.bibliotecadigital.ufmg.br/dspace/bitstream/1843/VCSA-6XTGF7/1/disserta_ao_m_rcia_maria_martins_parreiras.pdf
Historiografia e pós-modernismo
http://www.ppghis.ifcs.ufrj.br/media/topoi2a4.pdf
Construção de uma ontologia para sistemas de informação
http://www.datagramazero.org.br/abr06/Art_04.htm
Epistemologia da Ciência da Informação
http://www.enancib.ppgci.ufba.br/artigos/GT1--231.pdf
A Informação Construída
http://www.dgz.org.br/out04/Art_05.htm
O mapa do conhecimento em ciência da Informação
http://www.success.co.il/is/index.html
Radical iderteminação - a a epistemologia e a comunicação
http://www.compos.org.br/data/biblioteca_349.pdf

Notas sobre Engenharia Ontológica

ENGENHARIA ONTOLÓGICA
Iraci Sobral de Oliveira, PUC/PR

1 Considerações sobre Ontologia

O entendimento de Engenharia Ontológica passa necessariamente pelo entendimento do que é ontologia. Várias são as definições encontradas na literatura, algumas das quais citadas na seqüência. Almeida e Bax (2003), afirmam que nos últimos anos, a utilização de ontologias para a organização de conceitos tem sido amplamente citada. Por esta razão eles acreditam que o uso das ontologias seja uma opção para caracterizar e relacionar entidades em um domínio, representando desta forma o conhecimento nele contido. Já Guarino e Welty (1998, p. 12), fazem uma diferenciação entre a ontologia em sentido ilosófico defendida por Aristóteles e a ontologia estudada pela Inteligência Artificial, segundo eles uma ontologia em sentido filosófico é uma disciplina que se preocupa com a estrutura das coisas, objetos e propriedades, e outros aspectos da ealidade, por utro lado, em Inteligência Artificial, uma ontologia refere-se à representação de um conhecimento por meio da engenharia e vocabulários específicos usados para descrever uma realidade. No caso específico desta pesquisa o foco está na definição de ontologia que surgiu da IA, cuja importância tem sido reconhecida em várias áreas de pesquisa, tais como engenharia do conhecimento, gestão do conhecimento e modelagem orientada a objetos. Guarino e Giaretta (1995, p. 7), confirmam que a palavra ontologia alcançou boa popularidade dentro da Comunidade de Engenharia do Conhecimento. Porém, segundo eles o significado da palavra é um pouco vago e possui diferentes interpretações, tais como: 1) ontologia como disciplina filosófica, radicalmente diferente de todas as outras, ontologia (sem o artigo indefinido e com a inicial minúscula) refere-se à disciplina filosófica que lida com a natureza e a organização da realidade; as outras interpretações de ontologia (com o artigo indefinido e com inicial maiúscula) referem-se a determinados objetos em particular.

Guarino e Welty (1998, p. 12) ampliam esta visão e assumem que uma ontologia refere-se a um artefato de engenharia formado por um vocabulário específico que é usado para descrever certa realidade e um conjunto de afirmações explícitas sobre o significado das palavras do vocabulário. Almeida e Bax (2003), observam que uma ontologia é criada por especialistas e define as regras que regulam a combinação entre temas e relações em um domínio do conhecimento. Definir ontologias é “classificar em categorias aquilo que existe em um mesmo domínio do conhecimento”, segundo Almeida (2003, p. 54), Para Almeida, Moura, Cardoso e Cendon (2005), uma ontologia é uma estrutura de organização do conhecimento que apresenta algumas inovações em relação ao “thesaurus” tradicional, dentre elas, algumas que permitem inferências automáticas, que podem ser úteis para a manutenção da estrutura em um domínio complexo.

Uma ontologia é um catálogo de tipos de coisas, as quais (Sowa 1999), assume-se existir em um domínio de interesse, na erspectiva de uma pessoa que usa uma linguagem. Almeida (2003) apud Borst (1997 p.12), apresenta uma definição de ontologia simples e completa, na qual ele define: “uma ontologia é uma especificação formal e explícita de uma conceitualização compartilhada .” Ontologia segundo Santos et al.(2001), basicamente é o vocabulário usado para representar um certo domínio do conhecimento e a conceitualização que estes termos pretendem capturar. Os autores argumentam que o processo de conceitualização implica definir um corpo de conhecimento, representado formalmente, que seja baseado nos seguintes elementos: objetos, entidades, relações entre objetos e entre conceitos. Já os estudos de Gruber (1995, p. 9) crescentam uma dimensão mais formal á definição de ontologia que é uma especificação explícita dos objetos, conceitos e outras entidades que assumam que existem em outras áreas de interesse, além das relações entre esses conceitos e restrições expressadas por meio de axiomas. Para Gruber (1995), os componentes básicos de uma ontologia são as classes, as quais são organizadas em uma taxonomia, as relações que representam a interação entre os conceitos, os axiomas que representam sentenças verdadeiras e as instâncias, que representam dados. De acordo com Duarte e Falbo (2000, p. 5, 12) ratificam esta definição e acrescentam uma dimensão de utilidade à ontologia. Uma ontologia é uma especificação de uma conceitualização, isto é, uma descrição de conceitos e relações que existem em um domínio de interesse, basicamente consiste desses conceitos e relações e suas definições, propriedades e restrições, descritas na forma de axiomas. Ontologias são úteis para apoiar a especificação e a implementação de qualquer sistema de computação complexo. Neste sentido: ontologia pode ser desenvolvida para diversos fins, mas, de modo geral, os seguintes propósitos são atingidos: ajuda as pessoas a compreender melhor uma certa área de conhecimento; ajuda as pessoas a atingir um consenso sobre uma área de conhecimento; ajuda outras pessoas a compreender uma certa área de conhecimento.

As autoras Noy e McGuiness (2001, p. 15) reforçam a razão para utilizar ontologia e acrescentam outras. São elas:
a) compartilhar a mesma estrutura de informação entre pessoas e agentes de software; b) permitir o reuso do conhecimento o domínio; c) separar o conhecimento do domínio do conhecimento operacional; e d) analisar o conhecimento do domínio. Almeida e Bax (2003, p. 7), confirmam o caráter de representação do conhecimento por meio de ontologias. A utilização de ontologias para a organização de conceitos tem sido amplamente aplicada e, por esta razão, o uso das ontologias seja uma opção para caracterizar e relacionar entidades em um domínio, representando desta forma o conhecimento nele contido.
Cantele, Adamatti, Ferreira e Sichman (2004, p. 11) adicionam que, para que possa existir o compartilhamento de conhecimento, é necessário que pelo menos os conceitos mais comuns estejam descritos em uma ontologia básica, que possa ser o ponto de convergência dos engenheiros ontológicos. 36 As autoras Noy e McGuinness (2001, p. 15), afirmam que uma ontologia define um vocabulário comum para pesquisadores que necessitam compartilhar informações em um domínio. Inclui definições de conceitos básicos e a relação entre eles. Ainda, ontologia é uma descrição explícita formal de conceitos em um domínio do discurso (classes algumas vezes chamadas conceitos), propriedades de cada conceito que descreve várias características e atributos do conceito, (slots algumas vezes chamados papéis ou propriedades) e restrições em slots (facets algumas vezes chamados restrições do papel). Uma ontologia com um conjunto de exemplos de classes individuais constitui uma base de conhecimento. Reitera-se que o presente trabalho não se fixa a uma definição de ontologia específica por considerar que as mesmas não são de natureza contraditória mas sim complementar. A ontologia a ser tratada nesta pesquisa considerará apenas a aplicação relacionada à representação de conhecimento, com objetivo de contribuir para o desenvolvimento de sistemas baseados em conhecimento, ou engenharia do conhecimento. O principal objetivo é a possibilidade de desenvolver uma base de conhecimento para utilização em outras ontologias relacionada a assuntos semelhantes. Deve-se ressaltar que, embora várias das definições apresentadas estejam relacionadas à utilização de ontologias na área de engenharia de software, está aplicação da ontologia não será foco deste trabalho. Após a apresentação das definições de ontologia, faz-se necessário classificar a ontologia a ser obtida quanto aos diferentes tipos existentes.

2 Tipos de ontologias

Almeida e Bax (2003), dizem que as ontologias não têm sempre a mesma estrutura, mas algumas características e componentes estão presentes na maioria delas. Adicionalmente, apresentam uma síntese dos tipos de ontologia e sua
descrição, os quais são apresentados no Quadro 1- tipos de ontologia.
A Estratégia de Pesquisa se apóia neste Quadro e ilustra a classificação da ontologia a ser representada em termos de função, grau de formalismo, aplicação, estrutura e conteúdo.
Tipos de Ontologia - Abordagem, Classificação e Descrição
Ontologia de domínio Reutilizável no domínio, fornece vocabulário sobre conceitos, seus relacionamentos, sobre atividades e regras que os governam.
Ontologia de tarefa Fornece um vocabulário sistematizado de termos, especificando tarefas que podem ou não estar no mesmo domínio.
Quanto à função
Mizoguchi, Vanwellkenhuysen & Ikeda (1995) Ontologias gerais Inclui um vocabulário relacionado a coisas, eventos, tempo, espaço, casualidade, comportamento, funções etc.
Ontologia altamente informal Expressa livremente em linguagem natural
Ontologia semi-informal Expressa em linguagem natural de forma restrita e estruturada.
Ontologia semiinformal Expressa em uma linguagem artificial definida formalmente Quanto ao grau de formalismo Uschold & Gruninger (1996).
Ontologia rigorosamente formal Os termos são definidos com semântica formal, teoremas e provas.
Ontologia de autoria neutra Um aplicativo é escrito em uma única língua e depois convertido para uso em diversos sistemas, reutilizando-se as informações.
Ontologia como especificação Cria-se uma ontologia para um domínio, a qual é usada para documentação e manutenção do desenvolvimento de softwares.
Quanto à aplicação Jasper & Uschold (1999)
Ontologia de acesso comum à informação Quando o vocabulário é inacessível, a ontologia torna a informação inteligível, proporcionando conhecimento compartilhado dos termos.
Ontologia de alto nível Descreve conceitos gerais relacionados a todos os elementos da ontologia (espaço, tempo, matéria, objeto, evento, ação etc.) os quais são independentes do problema ou domínio.
Ontologia de domínio Descreve um vocabulário relacionado a um domínio,
como por exemplo, medicina ou automóveis.
Quanto à estrutura Haav & Lubi (2001).
Ontologia de tarefas Descreve uma tarefa ou atividade, como por exemplo,
diagnósticos ou compras, mediante inserção de termos especializados em ontologia.
Ontologia terminológica Especifica termos que serão usados para representar o conhecimento em um domínio (por exemplo, os léxicos).
Quanto ao Conteúdo Van-Heijist, Schreiber & Wielinga (2002) apud Almeida e Bax (2003)
Ontologia de informação Especifica a estrutura de registros de bancos de dados (por exemplo, os esquemas de bancos de dados). Ontologia de modelagem do conhecimento Especifica conceitualização do conhecimento, tem uma estrutura interna semanticamente rica e são refinadas para uso no domínio do conhecimento que descreve.
Ontologia de aplicação Contém as definições necessárias para modelar o conhecimento em uma aplicação.
Ontologia de domínio Expressa a conceitualização que é especifica para um
determinado domínio do conhecimento.
Ontologias genéricas Similar á ontologia de domínio, mas os conceitos que a definem são considerados genéricos e comuns a vários campos.
Ontologia de representação Explica as conceitualizações que estão por traz do formalismo de representação do conhecimento. FONTE: ALMEIDA E BAX (2003:10) Faz-se necessário ressaltar que embora haja diversos tipos de ontologia, apenas aquelas destacadas no Quadro 1 foram escolhidas. Esta classificação está orientada a buscar a representação de um domínio de conhecimento.

3 Engenharia Ontológica
Russel e Norvig (1995, p. 65), afirmam que a Engenharia Ontológica incorpora decisões sobre como representar uma ampla seleção de objetos e relações, dentro de uma ordem lógica, levando a um modelo de nível ontológico.
Segundo os autores, trata-se de organizar os seguintes títulos:
a) categorias;
b) medidas;
c) composição de objetos;
d) tempo, espaço e evento;
e) eventos e processos;
f) objetos físicos; g) substância; e
h) objetos mentais e crenças.
O presente trabalho assume em particular a abordagem de Noy e McGuiness para construção de ontologias. Noy e Mcguiness (2001), apresentam algumas regras para tal:
a) não há um modelo correto – existem sempre alternativas viáveis. a melhor solução sempre depende da aplicação e extensão que se pretende para a ontologia;
b) desenvolvimento de ontologia é sempre um processo interativo;
c) conceitos em ontologia deveriam ser próximos para objetos (físicos ou lógicos) e relacionamentos em seu domínio de interesse. estes são na maioria substantivos (objetos) ou verbos (relacionamentos) em sentenças que descrevem seu domínio.
Noy e Mcguiness (2001), ainda sugerem as seguintes etapas para a construção de ontologias:
a) Determinar o domínio e escopo da ontologia;
b) Considerar o reuso de ontologias existentes:
c) Enumerar termos importantes na ontologia;
d) Definir as classes e a hierarquia de classes;
e) Definir as propriedades de classes-slots;
f) Definir as facetas dos slots;
g) Definir instâncias.

3.1 Construção da ontologia
Na seqüência detalham-se estas etapas.

a) Etapa Determinação do domínio e do escopo da ontologia.
O desenvolvimento inicia-se pela definição do domínio e escopo, respondendo às questões de competência em relação ao tema estudado. Uma das maneiras de determinar o escopo da ontologia é elaborar uma lista de perguntas que uma base de conhecimento deve ser capaz de responder. Estas questões são denominadas questões de competência.
a) Qual é o domínio que a ontologia cobrirá?
b) Qual a finalidade que estamos usando a ontologia?
c) Quais respostas às informações da ontologia devem trazer?
d) Quem usará e manterá a ontologia?

b) Etapa Consideração da reutilização de ontologias existentes
Nesta fase é importante a verificação de ontologias já existentes no domínio de conhecimento. A reutilização de ontologias existentes pode ser um requisito se o sistema necessitar interagir com outras aplicações que já tenham sido consideradas por ontologias particulares ou vocabulários controlados. Muitas ontologias já estão disponíveis em formato eletrônico e podem ser importadas para o ambiente de desenvolvimento que está sendo utilizado. Visando evitar a construção de uma ontologia que já exista ou então aproveitar as bases conceituais de uma ontologia existente, realizou-se uma pesquisa para verificação da existência de ontologias já construídas nos domínios em estudo.
b) Considerar o reuso de ontologias existentes:
Nesta fase busca-se a ontologia numa biblioteca especializada na internet.

c) Etapa Enumeração dos termos importantes na ontologia
Nesta fase devem-se escrever uma lista de todos os termos que necessitam de definições ou explicações para os usuários, os termos sobre os quais é importante falar. Muitos dos termos identificados nas duas áreas de conhecimento podem ser usados ou descartados na construção da ontologia. A construção da ontologia também mostra a necessidade de que haja uma relação entre os termos encontrados com suas propriedades, ou seja, estas propriedades devem responder a seguinte pergunta: O que gostaríamos que a ontologia respondesse sobre estes termos?

d) Etapa Definição das classes e a hierarquia das classes
A definição de classes e hierarquias pode ser efetivada: (i) de cima para baixo, (ii) de baixo para cima ou (iii) por combinação. Um processo de desenvolvimento de cima para baixo começa com a definição da maioria dos conceitos gerais no domínio e as especializações subseqüentes dos conceitos, podem-se criar classes gerais de conceitos e então especializa-se em sub-classes categorizando-as. Um processo de desenvolvimento de baixo para cima começa com a definição da maioria das classes mais específicas, que partem da hierarquia, com subseqüente agrupamento destas classes em conceitos mais gerais. Um processo de desenvolvimento por combinação cima para baixo e baixo para cima inicia-se primeiro pela definição dos conceitos mais salientes e então se generaliza e especializa-se apropriadamente. Pode-se começar por poucos conceitos de alto nível e poucos conceitos específicos e então relacioná-los com conceitos de nível médio. Nenhum destes três métodos é melhor um do que o outro, o método depende do ponto de vista de quem vai desenvolver a ontologia e a visão que tem do domínio. Nesta etapa deve ocorrer uma seleção dos conceitos listados anteriormente. Os conceitos selecionados são as classes da ontologia e orientam a hierarquia. De acordo com Booch, Rumbauch e Jacobson (2000 p.47), uma classe é uma descrição de um conjunto de objetos que compartilham os mesmos atributos, operações, relacionamentos e semântica. Os autores explicam que as classes são utilizadas para capturar o vocabulário do sistema que está em desenvolvimento. Um exemplo de classe pode ser a construção de uma casa: as janelas seriam uma classe, modelo e tamanho seriam considerados atributos destas classes. Outro termo importante na construção da ontologia é a instância que segundo Booch,Rumbauch e Jacobson (2000 p.181), é a manifestação concreta de uma abstração à qual um conjunto de operações pode ser aplicado e que tem um estado capaz de armazenar os efeitos da operação. De acordo com Almeida (2003), com a lista de conceitos identificada, as classes são criadas através de agrupamentos semânticos dos conceitos existentes, entretanto, apenas classes não possibilitam a construção da ontologia, é preciso definir as propriedades das classes, atributos e operações. Neste caso os conceitos excedentes, após a definição das classes podem ser propriedades das classes, normalmente estes termos são, em geral, chamados de relações (slots).

e) Etapa Definição das propriedades das classes – Slots ou atributos
Esta fase define atributos das classes e visa à estruturação interna dos conceitos necessária para satisfazer os requisitos de informação do cenário em desenvolvimento.
Booch, Rumbaugh e Jacobson (2000, p.50), definem atributo como sendo uma propriedade nomeada de uma classe que descreve um intervalo de valores que as instâncias da propriedade podem apresentar. Uma classe pode ter qualquer número de atributos ou nenhum atributo. Para cada atributo da lista, devese determinar à que classe pertence. Estes atributos anexam-se à classe. Em geral existem diversos objetos de propriedades que podem se tornar atributos em uma ontologia: propriedades intrínsecas, propriedades extrínsecas e peças. Se o objeto está estruturado, estas peças podem ser físicas e abstratas.

f) Etapa Definição das Facets (propriedades) dos atributos
Esta fase corresponde à definição das facets ou propriedades dos atributos que podem ser: tipo de valor, valores permitidos, número de valores (cardinalidade), e características que os valores do atributo podem tomar. Alguns exemplos destas características são: a) cardinalidade - define quantos valores um atributo pode ter: um valor ou valores múltiplos; b) atributo tipo valor – descreve que tipo de valores pode completar o atributo; tais como: nome; c) número- descreve algumas coisas mais específicas, tais como valores numéricos. Por exemplo: preço.; d) Boolean atributos são simples sim ou não flag. Por exemplo: verdadeiro ou falso; e) enumerado- especifica uma lista de valores permitidos para slots. Por exemplo: forte, moderado e delicado, pode-se usar símbolos; f) Tipo exemplo: permitem definição de relacionamentos entre indivíduos. A classificação dos atributos está disponível no capitulo 6 construção da ontologia.

g) Etapa Criação de instâncias
O último passo é criar instâncias exemplos de hierarquia de classes individuais. Definir um exemplo de classe individual requer (1) escolher a classe, (2) criar um exemplo individual daquela classe, e (3) completar os valores dos atributos.
Outra fase importante da construção da ontologia e a identificação de operações que segundo Booch, Rumbauch e Jacobson (2000, p.51), é a implementação de um serviço que pode ser solicitado por algum objeto da classe para modificar o comportamento. Uma operação é uma abstração de algo que pode ser feito com um objeto e que é compartilhado por todos os objetos da classe, podem ser movidos, redimensionados ou ter suas propriedades examinadas.

Texto extraído da Dissertação de Mestrado do autor

As Camadas da Arquitetura da Web Semântica

Adagenor Lobato Ribeiro

Belém, Pará, Brazil

A Web Semântica é um esforço colaborativo liderado pelo World Wide Web Consortium (W3C), com a participação de pesquisadores da academia e da indústria de computação. O objetivo da Web Semântica é melhorar as potencialidades da web através da criação de padrões e ferramentas que permitam atribuir significado ao conteúdo das páginas web e, também possibilitar que usuários e programas possam trabalhar de forma cooperativa.

Nessa contexto um conjunto de padrões estão sendo especificados para a identificação de recursos na web, assim como para a representação sintática, estrutural, semântica e lógica de informações referentes a esses recursos. Esse conjunto de padrões forma as diversas camadas em que se divide a Arquitetura da Web Semântica.

A camada denomindada Unicode / URI fornece a interoperabilidade em relação à codificação de caracteres e ao endereçamento e nomeação de recursos da Web Semântica. O Unicode é um padrão de codificação para fornecer uma representação numérica universal e sem ambigüidade para cada caractere de maneira independente da plataforma de software e do idioma. O URI é um padrão para identificar um recurso físico ou abstrato de maneira única e global. Um identificador URL é um caso específico de URI, formado pela concatenação de seqüências de caracteres para identificar o protocolo de acesso ao recurso, o endereço da máquina na qual o recurso pode ser encontrado e o próprio recurso em questão.

A camada denominada de XML / Namespace / XML Schema fornece a interoperabilidade em relação à sintaxe de descrição de recursos da Web Semântica. A Extensible Markup Language (XML) é uma linguagem para representação sintática de recursos de maneira independente de plataforma. Os documentos que tem sua estrutura e conteúdo representados na linguagem XML são denominados de documentos XML. A XML Schema é uma linguagem de definição para descrever uma gramática (ou esquema) para uma classe de documentos XML. A linguagem XML Schema fornece elementos para descrever a estrutura e restringir o conteúdo de documentos XML. Os espaços de nomes (namespaces) fornecem um método para qualificar os nomes de elementos e atributos, utilizados nos documentos XML, através da associação destes nomes com os espaços de nomes identificados por referências de URI. Os espaços de nomes são úteis para distinguir entre dois elementos definidos com um mesmo nome, mas que pertencem a esquemas diferentes. Alem disso, um documento pode associar elementos previamente definidos à sua estrutura, desde que utilize referencias aos esquemas que definem esses elementos.

A camada denominada RDF / RDF Schema fornece um framework para representar informação (metadados) sobre recursos. As principais especificações do Resource Description Framework (RDF) abrangem um modelo de dados (para expressar declarações sobre os recursos), uma sintaxe baseada na Extensible Markup Language (XML) (para o intercâmbio das declarações) e uma linguagem de definição de esquemas para vocabulários.

A RDF fornece um modelo de dados fundamentado na idéia de expressar declarações simples sobre recursos; cada declaração consiste de uma tripla (sujeito, predicado, objeto). Por exemplo na declaração: “a data de criação da página http://www.ufpa.br/index.html é 06/08/2000”

Sujeito : “http://www.ufpa.br/index.html”

Predicado : “data de criação”

Objeto : “06/08/2000”

Um conjunto de triplas (ou declarações) é chamado de grafo RFD, que pode ser ilustrado como um diagrama de nós e arcos orientados, no qual cada tripla é representada como uma ligação nó-arco-nó. O RDF fornece uma sintaxe baseada na linguagem XML, denominada de RDF / XML, para realizar o intercâmbio desses grafos.

Alem do modelo e da sintaxe, a RDF também fornece uma linguagem, denominada RDF / Schema, para a definição de esquemas para os vocabulários (termos) utilizados nas declarações. A RDF-Schema estende a especificação básica do RDF para permitir a definição de vocabulários. Assim, o RDF-Schema é uma linguagem mínima para a representação de Ontologias simples. Basicamente, essa linguagem fornece o suporte necessário para descrever classes e propriedades, e também para indicar quais propriedades são utilizadas para a descrição de uma classe.

A camada denominada de Ontologia fornece suporte para a evolução de vocabulários e para processar e integrar a informação existente sem problemas de indefinição ou conflito de terminologia. A linguagem RDF-Schema permite a construção de ontologias com expressividade e inferência limitadas, pois fornece um conjunto básico de elementos para a modelagem, e poucos desses elementos podem ser utilizados para inferência. A Web Ontology Language (OWL) estende o vocabulário da RDF Schema para a inclusão de elementos com maior poder com relação a expressividade e inferência. Alem disso, a linguagem OWL fornece três módulos (ou dialetos), OWL Lite, OWL DL e OWL Full, para permitir o uso da linguagem por aplicações com diferentes requisitos de expressividade e inferência. O desenvolvedor pode escolher o módulo OWL adequado, de acordo com os requisitos da sua aplicação.

A camada denominada Lógica fornece suporte para a descrição de regras para expressar relações sobre os conceitos de uma ontologia, as quais não podem ser expressas com a linguagem de ontologia utilizada. As linguagens Rule Markup Language (RuleML) e Semantic Web Rule Language (SWRL) são exemplos de linguagens propostas para a descrição de regras para a Web Semântica. Nesse sentido, o W3C iniciou o trabalho sobre o Rule Interchange Format (RIF) para fornecer suporte ao intercâmbio das diversas tecnologias baseadas em regras.

As camadas denominadas de Prova e Confiança fornecem o suporte para a execução das regras, alem de avaliar a correção e a confiabilidade dessa execução. Essas camadas ainda estão em desenvolvimento e dependem da maturidade das camadas inferiores.

A Web Semântica e suas contribuições para a ciência da informação

Renato Rocha Souza

Doutorando em ciência da informação. Escola de Ciência da Informação. Universidade Federal de Minas Gerais

E-mail: rsouza@eci.ufmg.br

Lídia Alvarenga

Doutorado em Educação pela Universidade Federal de Minas Gerais. Professora Adjunta da Escola de Ciência da Informação (UFMG)

E-mail: lidiaalvarenga@eci.ufmg.br

Resumo

O presente artigo apresenta o processo de atualização por que passa a World Wide Web na sua transição para o que tem sido chamado de “Web Semântica”. Neste sentido, busca-se identificar as tecnologias, as organizações associadas e o embasamento filosófico e conceitual subjacentes a esta nova web. O artigo também procura apresentar as imbricações existentes com a ciência da informação e as possibilidades de ampliação de escopo dos seus objetos tradicionais de pesquisa com o aporte dos novos padrões e tecnologias que estão sendo desenvolvidos no âmbito da Web Semântica.

Palavras-chave

Web Semântica; Ciência da informação; Internet; Sistemas de recuperação da informação; Hipertexto.

Web Semantics and its contributions to information science

Abstract

This article explores the updating process that is taking place in the World Wide Web in the transition to what is being called “The Semantic Web”. In this sense, we try to identify the technologies, the associated organizations and institutions, the conceptualization and the philosophy that underlie this new web. The article also tries to show the interconnections between the semantic web and the field of information science, and how the semantic web technologies can broaden the traditional information science research subjects.

Keywords

Semantic Web; Information science; Internet; Systems of information retrieval; Hypertext.

INTRODUÇÃO

Surgida no início dos anos 90, a World Wide Web*, ou simplesmente Web, é hoje tão popular e ubíqua, que, não raro, no imaginário dos usuários, confunde-se com a própria e balzaquiana Internet – a infra-estrutura de redes, servidores e canais de comunicação que lhe dá sustentação. Se a Internet surgiu como proposta de um sistema distribuído de comunicação entre computadores para possibilitar a troca de informações na época da Guerra Fria, o projeto da Web, ao implantar de forma magistral o conceito de hipertexto imaginado por Ted Nelson & Douglas Engelbart (1962), buscava oferecer interfaces mais amigáveis e intuitivas para a organização e o acesso ao crescente repositório de documentos que se tornava a Internet. Entretanto, o enorme crescimento – além das expectativas – do alcance e tamanho desta rede, além da ampliação das possibilidades de utilização, fazem com que seja necessária uma nova filosofia, com suas tecnologias subjacentes, além da ampliação da infra-estrutura tecnológica de comunicação.

Para apresentar as mudanças por que está passando a Web na transição para este novo patamar que tem sido chamado de “Web Semântica” e avaliar alguns dos impactos deste fenômeno, convém explorar brevemente os conceitos inerentes aos sistemas de recuperação de informações, sua funcionalidade, e estabelecer algumas categorias de análise.

* Em uma tradução literal, “Teia de Alcance Mundial”.

A Web e os sistemas de recuperação de informações

A dificuldade de conceitualização do que é um sistema de recuperação de informações (SRI) advém, a princípio, da ambigüidade dos conceitos de sistema e de informação em si (Araújo, 1995). Podemos adotar, entretanto, algumas definições que façam sentido no escopo do assunto tratado e, desde já, assumimos que, ao falar de sistemas de recuperação de informações, estamos falando em tecnologias para a recuperação de informações registradas em formato impresso ou digital.

As metodologias e tecnologias associadas à biblioteconomia e à documentação e, mais recentemente, à ciência da informação surgiram como uma resposta às necessidades causadas pelo papel cambiante que tomou o conhecimento humano e seus registros através dos tempos (Wersig, 1993). Com a explosão de documentos disponíveis, surgiram os diversos sistemas de informação que, mediante operações de indexação, armazenamento e recuperação, buscavam organizar e prover acesso à informação registrada em documentos. Com o fenômeno contemporâneo da crescente disponibilização destes documentos em formato digital, vimos surgir e ampliarem-se os sistemas informatizados de recuperação de informações.

Prover aos usuários fácil acesso aos documentos atinentes disponíveis é o objetivo dos SRIs. Para Lancaster & Warner (1993, p. 4-5), os SRIs são uma interface entre uma coleção de recursos de informação, em meio impresso ou não, e uma população de usuários, e desempenham as seguintes tarefas: aquisição e armazenamento de documentos; organização e controle destes; distribuição e disseminação aos usuários. Esta visão é abrangente e inclui tarefas que são normalmente associadas a atores humanos. Salton & Mcgill (1983, p. 1) e, mais tarde, Baeza-Yates & Ribeiro-Neto (1999, p. 1) definem SRIs como sistemas que lidam com as tarefas de representação, armazenamento, organização e acesso aos itens de informação.

Há de se distinguir os sistemas de recuperação de informações dos sistemas de recuperação de dados, nos quais basta uma determinada condição a ser satisfeita para que se tenha uma resposta exata, fruto de uma busca completa e exaustiva. A recuperação de informações traz dificuldades intrínsecas ao conceito de “informação”, como a dificuldade da determinação da real necessidade do usuário e seu melhor atendimento com os documentos que fazem parte do acervo do sistema (Foskett, 1997, p.5). Isto nos traz problemas para as consultas, como baixas revocação * e precisão **.

Para a representação adequada de documentos, é necessário criar sistemas de indexação eficazes, de forma que a recuperação das informações neles contidas, de acordo com as necessidades dos usuários, seja a mais significativa possível. A determinação do processo de indexação é viável no momento em que os sistemas são projetados e deve funcionar continuamente, à medida que novas informações são adicionadas ao sistema.

* Razão do número de documentos atinentes recuperados sobre o total de documentos atinentes disponíveis na base de dados.

** Razão do número de documentos atinentes recuperados sobre o total de documentos recuperados.

Embora tenha sido projetada para possibilitar o fácil acesso, intercâmbio e a recuperação de informações, a Web foi implementada de forma descentralizada e quase anárquica; cresceu de maneira exponencial e caótica e se apresenta hoje como um imenso repositório de documentos que deixa muito a desejar quando precisamos recuperar aquilo de que temos necessidade. Não há nenhuma estratégia abrangente e satisfatória para a indexação dos documentos nela contidos, e a recuperação das informações, possível por meio dos “motores de busca” (search engines), é baseada primariamente em palavras-chave contidas no texto dos documentos originais, o que é muito pouco eficaz. A dificuldade de determinar os contextos informacionais tem como conseqüência a impossibilidade de se identificar de forma precisa a atinência dos documentos. Além disso, a ênfase das tecnologias e linguagens atualmente utilizadas nas páginas Web focaliza os aspectos de exibição e apresentação dos dados, de forma que a informação seja pobremente descrita e pouco passível de ser consumida por máquinas e seres humanos. É neste contexto que surge a proposta da Web Semântica.

A WEB SEMÂNTICA

“A Web Semântica não é uma Web separada, mas uma extensão da atual. Nela a informação é dada com um significado bem definido, permitindo melhor interação entre os computadores e as pessoas”. Com estas palavras, Berners-Lee (2001) define os planos de seu grupo de trabalho no World Wide Web Consortium* (W3C) para operar a transformação que irá modificar a Web como a conhecemos hoje. “Web Semântica” (Decker et alii, 2000 & Berners-Lee et alii, 1999) é o nome genérico deste projeto, capitaneado pelo W3C, que pretende embutir inteligência e contexto nos códigos XML utilizados para confecção de páginas Web, de modo a melhorar a forma com que programas podem interagir com estas páginas e também possibilitar um uso mais intuitivo por parte dos usuários.

* Consórcio de empresas, profissionais, cientistas e instituições acadêmicas que é responsável pela criação de padrões tecnológicos que regulam a World Wide Web.

Embora “semântica” signifique “estudo do sentido das palavras”, Guiraud (1975) reconhece três ordens principais de problemas semânticos:

1) a ordem dos problemas psicológicos, que relaciona os estados fisiológicos e psíquicos dos interlocutores nos processos de comunicação de signos;

2) a ordem dos problemas lógicos, que estabelece as relações dos signos com a realidade no processo de significação;

3) a ordem dos problemas lingüísticos, que estabelece a natureza e as funções dos vários sistemas de signos.

Guiraud confere à terceira ordem de problemas o status de “semântica por excelência” (1976, p.8), mas o uso da conotação “semântica” para a Web ampliada está ancorado na segunda definição, e se justifica se observarmos as aumentadas possibilidades de associações dos documentos a seus significados por meio dos metadados descritivos. Além disso, as ontologias construídas em consenso pelas comunidades de usuários e desenvolvedores de aplicações permitem o compartilhamento de significados comuns.

Berners-Lee (2001) imagina um mundo em que programas e dispositivos especializados e personalizados, chamados agentes, possam interagir por meio da infra-estrutura de dados da Internet trocando informações entre si, de forma a automatizar tarefas rotineiras dos usuários. O projeto da Web Semântica, em sua essência, é a criação e implantação de padrões ( standards) tecnológicos para permitir este panorama, que não somente facilite as trocas de informações entre agentes pessoais, mas principalmente estabeleça uma língua franca para o compartilhamento mais significativo de dados entre dispositivos e sistemas de informação de uma maneira geral.

Para atingir tal propósito, é necessária uma padronização de tecnologias, de linguagens e de metadados descritivos, de forma que todos os usuários da Web obedeçam a determinadas regras comuns e compartilhadas sobre como armazenar dados e descrever a informação armazenada e que esta possa ser “consumida” por outros usuários humanos ou não, de maneira automática e não ambígua. Com a existência da infra-estrutura tecnológica comum da Internet, o primeiro passo para este objetivo está sendo a criação de padrões para descrição de dados e de uma linguagem que permita a construção e codificação de significados compartilhados. Para melhor entender estes padrões e linguagens, vamo-nos debruçar a seguir um pouco mais sobre estes conceitos.

SGML, HTML e XML

Um documento na Web é composto por uma mistura de dados e metadados. “Meta” é um prefixo de auto- referência, de forma que “metadados” sejam “dados sobre dados”. Os metadados em documentos na Web têm a função de especificar características dos dados que descrevem, a forma com que serão utilizados, exibidos, ou mesmo seu significado em um contexto.

A linguagem ainda utilizada atualmente para a construção da maioria das páginas Web é o HTML, ou HyperText Markup Language (linguagem de marcação em hipertexto). A linguagem HTML é derivada do padrão SGML (Standard Generalized Markup Language), que é, na verdade, uma metalinguagem, ou seja, uma linguagem para descrever outras linguagens. O padrão SGML é baseado na idéia de que documentos contêm estrutura e outros elementos semânticos que podem ser descritos sem que se faça referência à forma com que estes elementos serão exibidos. O conjunto de todas as tags – marcações sintáticas que descrevem os dados e comandos para manipulação de um documento – passíveis de serem utilizadas por uma linguagem derivada do SGML é chamado de DTD, ou Document Type Definition.

A linguagem HTML é um conjunto definido de tags, ou um DTD específico do SGML, e foi criada tendo em mente a necessidade de construção de documentos para serem exibidos em dispositivos de computador (na Web), daí sua vocação para tratar do formato que os dados contidos no documento vão assumir ao serem exibidos. Um navegador ou browser, ao ler um documento HTML, interpreta as tags que este documento contém para decidir como serão exibidos os dados também contidos. Os navegadores atuais interpretam o HTML porque o DTD para definição do HTML é fixo, e é conhecido a priori pelo interpretador do navegador. Assim mesmo, podemos ter navegadores diferentes interpretando definições de exibição de forma particular, com resultados distintos no dispositivo de saída. A estrutura do HTML é rígida, não existindo a possibilidade de adição de novos comandos de marcação ( tags), sem que haja uma redefinição do DTD da linguagem e conseqüente atualização dos navegadores para que interpretem estas novas tags. A última especificação do HTML lançada pelo W3C foi a versão 4.0, e desde então a linguagem não tem sofrido mais modificações.

A partir das limitações do HTML e das necessidades de uma linguagem que pudesse descrever o conteúdo semântico e os significados contextuais, além da estrutura e forma de exibição de documentos, foi criado o XML (eXtensible Markup Language). O XML é uma recomendação formal do W3C e, em determinados aspectos, assemelha-se ao HTML. Ambas são derivadas do SGML e contêm tags para descrever o conteúdo de um documento. Mas, enquanto o HTML tem como objetivo controlar a forma com que os dados serão exibidos, o XML se concentra na descrição dos dados que o documento contém. Além disso, o XML é flexível no sentido de que podem ser acrescentadas novas tags à medida que forem necessárias, bastando para isso que estejam descritas em um DTD específico; ou seja, qualquer comunidade de desenvolvedores pode criar suas marcações ( tags) específicas que sirvam aos propósitos de descrição de seus dados. Isto possibilita que os dados sejam descritos com mais significado, abrindo caminho para embutirmos semântica em documentos da World Wide Web e nas intranets. O HTML 5.0 ou XHTML é o HTML 4.0 reescrito como se fosse um DTD específico que segue o padrão XML.

Os dados contidos nos documentos XML podem ser exibidos em uma infinidade de maneiras, dependendo do dispositivo em que serão manuseados (telas de computador, celulares, PDAs etc.). Os documentos XML não contêm, em si, as diretivas para exibição dos dados, e, para cada dispositivo-destino específico, podemos realizar uma transformação do documento originalmente em XML para um documento passível de ser exibido ao usuário ou entendido e utilizado por outro dispositivo tecnológico. Esta transformação é realizada utilizando-se a linguagem XSL (eXtensible Stylesheet Language), e cada arquivo XSL contém as definições de exibição ou leitura de um ou vários dispositivos específicos (tela do computador, tela do celular, impressora, coletores de dados, outros sistemas de informação etc.), no formato que melhor convier (tabelas, gráficos, seqüência de caracteres etc.). O arquivo XML passa por uma transformação definida pelo XSL, e o resultado é um arquivo muito semelhante a um documento HTML comum. Desta forma, o trio XML, seu DTD específico e o XSL se apresentam como um conjunto de padrões que possibilitam o armazenamento, descrição significativa, intercâmbio e exibição dos dados de forma personalizada.

O padrão XML é aceito como o padrão emergente para troca de dados na Web. Mas, apesar de possibilitar aos autores a criação de suas próprias tags, em uma perspectiva computacional, há muito pouca diferença entre as tags <AUTHOR> e <CREATOR>. Para que as marcações semânticas criadas sejam utilizadas de forma não-ambígua por comunidades maiores, são necessários alguns padrões de compartilhamento mais universais. O W3C e as comunidades de usuários têm procurado prover estes padrões, como abordamos em seguida.

Muitas empresas estão migrando seus bancos de dados e bases de documentos para padrões compatíveis com XML e SGML, de forma a possibilitar a interoperabilidade dos sistemas internos da companhia.

Metadados e o Dublin Core

Não basta possuir uma linguagem flexível como o XML para construir metadados. Para compartilhar um significado, é necessário que este seja consensual e inteligível de forma não ambígua entre todos os participantes de uma comunidade. Para resolver o problema da explosão de nomenclaturas diferentes e as várias situações em que a interpretação dos dados de maneira unívoca não é possível, foram criados, no escopo do projeto da Web Semântica, alguns padrões de metadados, de construção de código XML e uma nova significação para o termo ontologias, como vemos a seguir.

O padrão Dublin Core é uma iniciativa para criação de um vocabulário controlado, mesmo que limitado, para uso na Web, baseado no pressuposto de que a busca por recursos de informação deve ser independente do meio em que estão armazenadas. É composto de 15 elementos de metadados (DCMI, 2003) e se baseia no padrão MARC* (2003). Seus elementos são title (o nome dado ao recurso, ou título), creator (a pessoa ou organização responsável pelo conteúdo), subject (o assunto, ou tópico coberto pelo documento), description (descrição do conteúdo), publisher (o responsável por tornar o recurso ou documento disponível), contributors (aqueles que contribuíram para o conteúdo), date (data em que o recurso foi tornado disponível), type (uma categoria preestabelecida para o conteúdo), format (o formato no qual o recurso se apresenta), identifier (identificador numérico para o conteúdo, tal como uma URL**), source (fonte de onde foi originado o conteúdo), language (a linguagem em que está escrito), relation (como o conteúdo se relaciona com outros recursos, como, por exemplo, se é um capítulo em um livro), coverage (onde o recurso está fisicamente localizado) e rights (um ponteiro ou link para uma nota de copyright). O Dublin Core Metadata Initiative (DCMI) teve início em 1995, ganhando o nome da localidade onde se deu o encontro inicial, Dublin, Ohio, USA. Sua aceitação foi rápida e é hoje um padrão internacional, com participantes de mais de 20 países. Existem duas formas para o padrão Dublin Core, a forma simples e a qualificada. Enquanto Simples apenas especifica os padrões para os 15 possíveis pares de atributo e valor, a qualificada aumenta a especificidade dos metadados com informações sobre codificação e outras orientações para o processamento dos documentos.

* O MARC é um padrão para comunicação de informações bibliográficas de forma que possibilite o entendimento por dispositivos eletrônicos. É uma iniciativa da biblioteca do Congresso dos EUA.

** A URL, ou Uniform Resource Locator, é um caso particular dos URI (Uniform Resource Identifier), que são os endereços que identificam um “ponto de conteúdo” da World Wide Web, seja este uma página de texto, vídeo, imagem, som etc. O tipo mais comum de URI é a URL, que descreve o endereço de uma página na Web (o servidor que a hospeda e o nome do documento neste servidor) e o mecanismo (protocolo) utilizado para o acesso (HTTP, FTP etc.).

O padrão RDF

O RDF ou Resource Description Framework é uma recomendação do W3C que deve vir a ser implementada na confecção de páginas da Web Semântica. O RDF encerra um padrão de ontologias, para a descrição de qualquer tipo de recurso Internet, como um site Web e seu conteúdo. O RDF estabelece na verdade um padrão de metadados para ser embutido na codificação XML, e sua implementação é exemplificada pelo RDF Schema, ou RDFS, que faz parte da especificação do padrão. A idéia do RDF é a descrição dos dados e dos metadados por meio de um esquema de “triplas” de recurso-propriedade-valor, e uma forma coerente de acesso aos padrões de metadados ( namespaces*) publicados na Web (como o Dublin Core, ou outro namespace compartilhado). Vejamos no quadro 1 um exemplo de código XML que utiliza três diferentes namespaces.

QUADRO 1

Exemplo de código XML

Nas segunda, terceira e quarta linhas de código, vemos a referência aos namespaces utilizados pelo documento XML – o namespace do padrão RDF, o do padrão Dublin Core e o namespace de especificação de Vcards (Visit Cards), que padroniza a descrição dos dados comumente encontrados em um cartão de visita. Uma vez especificado um namespace, podemos utilizar seus descritores de forma não-ambígua ao longo do documento, fazendo sempre referência a qual deles estamos utilizando (ex: <v:Name>, <dc:Creator> ou </ rdf:Description>). Podemos ter centenas ou milhares de namespaces de uso geral (como o da especificação Dublin Core) ou específicos (como o do padrão Vcard) publicados na Web, de forma que os metadados estejam sempre disponíveis, e, sempre que precisarmos de um vocabulário controlado para descrever algum domínio do conhecimento, possamos recorrer aos metadados consensuais e compartilhados. O padrão RDF, as ontologias e os namespaces compartilhados vão permitir que qualquer indivíduo ou organização publique informações em sites Web de forma que produtos de software ou agentes possam interpretar a informação marcada semanticamente e agir sobre esta informação de forma mais inteligente.

* Um namespace (NS) define um vocabulário controlado que identifica um conjunto de conceitos de forma única para que não haja ambigüidade na sua interpretação. Os namespaces XML são conjuntos de tipos de elementos e atributos possíveis para cada tipo. As triplas do RDF se baseiam em namespaces de forma que a cada recurso seja associado uma dupla de propriedade e valor. Os namespaces podem ser referenciados por meio de uma URI, que se constitui em um repositório compartilhado, e não-ambíguo, onde usuários e programas de validação de código XML podem consultar a sintaxe e propriedades semânticas dos conceitos cobertos.

Em resumo, são estes alguns dos benefícios do padrão RDF:

– prover um ambiente consistente para a publicação e utilização de metadados na web utilizando a infra-estrutura do XML;

– prover uma sintaxe padronizada para a descrição dos recursos e propriedades dos documentos na Web;

– permitir que aplicações possam agir de forma inteligente e automatizada sobre as informações publicadas na Web, uma vez que seus significados são mais facilmente inteligíveis.

O padrão RDF ainda está em evolução, e se estudam soluções para que a descrição dos namespaces seja feita de forma mais inteligente e não repetitiva no escopo de um documento e, além disso, possam compreender mais propriedades. Neste âmbito, vamos falar um pouco mais sobre um tipo mais genérico de namespace, que são as ontologias.

Ontologias

A palavra “ontologia” deriva do grego onto (ser) e logia (discurso escrito ou falado). Na filosofia, a ontologia é uma teoria sobre a natureza da existência, de que tipos de “coisas” existem; a ontologia como disciplina filosófica estuda tais teorias. Pesquisadores da Web e de inteligência artificial adaptaram o termo aos seus próprios jargões, e, para eles, uma ontologia é um documento ou arquivo que define formalmente as relações entre termos e conceitos. Neste sentido, uma ontologia mantém semelhanças com os tesauros, utilizados para definição de vocabulários controlados. Nas palavras do SemanticWeb.org,

“uma ontologia é uma especificação de uma conceituação. É designada com o propósito de habilitar o compartilhamento e reuso de conhecimentos, de forma a criar ‘compromissos ontológicos’, ou definições necessárias à criação de um vocabulário comum”.

As ontologias se apresentam como um modelo de relacionamento de entidades e suas interações, em algum domínio particular do conhecimento ou específico a alguma atividade. O objetivo de sua construção é a necessidade de um vocabulário compartilhado para se trocarem informações entre os membros de uma comunidade, sejam eles humanos ou agentes inteligentes. Diversos padrões e linguagens para construção e compartilhamento de ontologias na Web estão sendo criados, todos baseados no XML, com algumas diferenças de sintaxe de marcação ( tags). Alguns exemplos são o SHOE*, a Ontology Exchange Language (XOL)**, a Ontology Markup Language (OML e CKML***) e a Resource Description Framework Schema Language (RDFS)****. Existe uma proposta de extensão do RDF e o RDFS chamada OIL (Ontology Interchange Language)***** e seu sucessor DAML+OIL******.

O DAML+OIL (DARPA Agent Markup Language –Ontology Interchange Language) é uma linguagem baseada no XML, desenhada para possuir muito mais capacidade que este na descrição de objetos e no seu relacionamento; para expressar semântica e criar um alto grau de interoperabilidade entre sites Web. O OWL é uma linguagem de marcação semântica para publicação e compartilhamento de ontologias na Web e do DAML+OIL. Um exemplo de um editor que suporta a criação cooperativa de ontologias baseado na Web é o Webonto*******.

* http://www.cs.umd.edu/projects/plus/SHOE/

** http://ecocyc.panbio.com/xol/xol.html

*** http://www.ontologos.org/

**** http://www.w3.org/TR/PR-rdf-schema/

***** http://www.ontoknowledge.org/oil/

****** http://www.daml.org/

******* http://webonto.open.ac.uk/

Agentes

O grande poder da Web Semântica só vai se realizar quando forem criadas peças de programa que coletem conteúdo da Web de diversas fontes, processem estas informações e compartilhem os resultados com outros programas. Estes programas são os agentes. Embora não haja uma definição universal para o termo “agente” no âmbito da computação, podemos considerar o conceito disseminado de agentes como assistentes de tarefa, ou seja, entidades de software que empregam técnicas de inteligência artificial com o objetivo de auxiliar o usuário na realização de uma determinada tarefa, agindo de forma autônoma e utilizando a metáfora de um assistente pessoal.

A tecnologia de agentes permite que se repense a natureza da interação entre homem e computador, na qual esse último torna-se um parceiro do usuário, cooperando para o alcance dos objetivos traçados. Podemos esperar que o futuro da computação seja caracterizado por uma completa delegação de tarefas por parte dos usuários aos computadores, sem a necessidade de qualquer tipo de manipulação direta. A utilização de agentes possibilita a implementação de um estilo complementar de interação, chamado gerência indireta, no qual o computador se torna uma entidade ativa, dotada de certo grau de autonomia e capaz de realizar tarefas que auxiliem o usuário no desempenho de suas atividades, de acordo com seus interesses.

Em Wooldridge & Jennings (1995), é apresenta-se um conjunto de propriedades desejáveis a um agente, a saber:

– autonomia, de modo a agir sem qualquer tipo de intervenção, possuindo controle sobre suas ações e estado interno; – sociabilidade, de modo a interagir com outros agentes (artificiais ou humanos) por meio de algum tipo de linguagem de comunicação;

– reatividade, de modo a perceber alterações em seu ambiente, reagindo a tempo;

– proatividade, de modo a estar apto a tomar iniciativas, em vez de simplesmente atuar em resposta ao ambiente;

– continuidade temporal, ou seja, está sendo executado continuamente, ativamente ou em background, possivelmente captando informações sobre o usuário e sobre o ambiente, para melhor desempenhar suas funções;

– orientação para objetivos , por ser capaz de interagir e desempenhar uma série diversa de ações isoladas, com objetivo de executar uma tarefa mais complexa.

Em Nwana (1996), é apresentada uma tipologia para agentes na qual estes são analisados segundo várias dimensões: mobilidade; presença de um modelo de raciocínio simbólico; exibição de um conjunto ideal e primário de atributos, tais como autonomia, cooperação e aprendizagem; papéis desempenhados pelos agentes; filosofias híbridas, decorrentes da combinação das características anteriores; atributos secundários, tais como versatilidade, benevolência, confiabilidade, qualidades emocionais, entre outros. Com base nessas características, Nwana classifica os agentes como colaborativos, móveis, de informação/Internet, reativos, híbridos, inteligentes e de interface.

FIGURA 1

O roadmap da Web Semântica (SemanticWeb.Org, 2001)

A efetividade destes agentes de software vai aumentar exponencialmente à medida que mais conteúdo marcado semanticamente e passível de ser “entendido” por máquinas estiver disponível. A Web Semântica promete esta sinergia: mesmo os agentes que não tenham sido expressamente desenhados para trabalhar em conjunto poderão trocar informações entre si, quando houver semântica embutida nestes dados.

A WEB SEMÂNTICA: A WEB SE APROXIMA DE UM GRANDE SRI

A partir dos conceitos de sistemas de recuperação de informações e das tecnologias apresentadas, vamos entender um pouco mais o grande panorama da Web Semântica, com a ilustração a seguir (figura 1).

Na figura 1, que ilustra o roadmap da Web Semântica (SemanticWeb.Org, 2001), podemos entender como as tecnologias se articulam entre si e como a Web Semântica aproxima a Web da funcionalidade plena de um sistema de recuperação de informações. Vamos associar as várias entidades representadas e suas funcionalidades associadas a seguir.

No âmbito da representação e indexação dos documentos, temos as ferramentas e tecnologias para anotação semântica das páginas web (Web-Page annotation Tools) e para construção de ontologias compartilhadas (Ontology Construction Tools). Estas ferramentas possibilitarão a existência cada vez mais ampla e disseminada de páginas web marcadas semanticamente (Annotated Web-Pages) com metadados descritos em namespaces de domínio público (Metadata Repository) e com conteúdo semântico compartilhado em seu significado pelas comunidades e usuários da web através das ontologias. As ontologias criadas serão articuladas entre si por meio de ferramentas específicas e meta-ontologias (Ontologies Articulation Toolkits). Com uma estratégia padronizada de indexação, podemos projetar sistemas mais funcionais para recuperação da informação armazenada.

No âmbito da recuperação e uso dos documentos, os agentes, associados aos mecanismos de busca e inferência (Inference Engine) executarão o harvesting (colheita) de informações nos documentos anotados semanticamente de maneira eficaz, porque serão capazes de “compreender” seus conteúdos, de modo que a informação seja mais significativamente utilizada pelos usuários (humanos e não humanos) da Web. Estes poderão acessar estas novas tecnologias por meio dos portais comunitários (community portals) ou mesmo dos portais corporativos das organizações. Podemos esperar que a Web tenha grande melhoria dos índices de revocação e precisão no atendimento das necessidades de informação, porque a semântica embutida nos documentos permitirá aos dispositivos de recuperação evitar os problemas comuns de polissemia e sinonímia, além de considerar as informações em seus contextos de significado.

A infra-estrutura da Internet e as intranets, no âmbito das várias organizações, serão os dispositivos responsáveis pelo armazenamento e os canais por onde ocorre a disseminação dos documentos, neste grande sistema de informação. As tecnologias para implementação, assim como os protótipos destas ferramentas, já se encontram disponíveis, e o processo de atualização da Web está em pleno curso. A Web Semântica não trata de uma revolução, mas sim de uma evolução da Web como a conhecemos hoje. Trata-se principalmente da adoção de padrões de metadados e de compartilhamento destes padrões, de forma que possamos melhor utilizar o vasto repositório de informações disponível da Web de maneira mais produtiva, ágil e significativa.

A WEB SEMÂNTICA E A CIÊNCIA DA INFORMAÇÃO

Como dissemos, acreditamos que, na convergência destas tecnologias e ferramentas apresentadas, podem surgir alternativas para suportar um uso mais significativo e eficaz do grande patrimônio disponível nas redes de informação. Mas o que não foi dito é que estes padrões que estão sendo criados não limitam seu escopo de aplicabilidade à Web. A palavra de ordem que se iniciou com o XML é “interoperabilidade”, ou seja, a possibilidade de sistemas diferentes “conversarem” entre si. Tudo indica que os padrões que estão sendo desenhados para esta nova Web também sejam adotados na arquitetura de bibliotecas digitais e de novos sistemas de informação. Podemos esperar que estas tecnologias também tragam mudanças para a área e a atividade dos profissionais da ciência da informação. Podemos exemplificar algumas atividades bem específicas que serão possibilitadas ou melhoradas com esta nova Web:

Projetos de novos e melhorados motores de busca

Com a marcação semântica das informações, há uma nova miríade de possibilidades para o projeto de mecanismos de recuperação de informações. Nota-se uma preocupação atual por parte dos maiores motores de busca em se preparar para essa outra versão da Web (Marchiori, 1998), que é constituída gradualmente de um número cada vez maior de documentos marcados semanticamente. Faz parte do escopo da ciência da informação o estudo de processos de indexação e recuperação de informações e, nesta perspectiva, é bem provável que venhamos a confrontar nossas linguagens artificiais de indexação com as metodologias de marcação semântica dos dados representadas pelos metadados e namespaces da Web Semântica e, também, da lógica formalizada do XML e do RDF.

Construção de novas interfaces com o usuário para sistemas de informação

O estudo de interfaces dos sistemas de informação, como os motores de busca, com o usuário, ganha um novo impulso com aumentadas possibilidades da Web Semântica, uma vez que a lógica intuitiva e natural do RDF permite que projetemos interfaces para sistemas de informação de forma mais intuitiva e coerente com o funcionamento cognitivo dos seres humanos. Além disso, com os agentes inteligentes, poderemos aprimorar e personalizar a utilização dos perfis de usuários para que a interação destes com os sistemas seja mais significativa e ágil. A lógica de triplas do RDF casa-se sobremaneira com a construção de mapas conceituais (Novak, 1977), e podemos adotar estratégias de visualização como as geometrias hiperbólicas (Lamping, 1995).

Construção automática de tesauros e vocabulários controlados

Devido à semântica genérica e formalizada do RDF (Ora Lassila et alii, 1999), às possibilidades de se embutir significado nos documentos e à disponibilização de ontologias em diversas áreas do conhecimento, podemos esperar o surgimento de novas metodologias automatizadas para criação de tesauros e vocabulários controlados, a partir da análise das marcações semânticas dos documentos e das relações tríplices de recurso, propriedade e valor, explicitadas pelo RDF.

Indexação automática de documentos

Por meio das ontologias e dos metadados utilizados, compartilhados e validados entre comunidades de interesse, podemos engendrar novas metodologias para analisar automaticamente a atinência de documentos e assim classificá-los de maneira automática ou semi-automática.

Gestão do conhecimento organizacional

De acordo com Teixeira Filho (2000), a gestão do conhecimento organizacional nasce da confluência entre tecnologia da informação e administração e se posiciona entre os campos da cultura organizacional, estratégia empresarial e sistemas de informação de uma organização. Outros autores poderiam acrescentar o campo da educação corporativa e de recursos humanos, e é um dos campos de estudo da ciência da informação. Podemos apontar a grande confluência das tecnologias tornadas disponíveis pela Web Semântica e as necessidades de gestão do conhecimento organizacional. Com o aumento das possibilidades de recuperação de documentos e da interoperabilidade entre os sistemas, podemos esperar maior funcionalidade de portais corporativos, tecnologia-símbolo da gestão do conhecimento. Com as ontologias comunitárias e da padronização dos metadados, torna-se mais fácil a tarefa de explicitar, classificar e armazenar o conhecimento produzido pelos ativos de capital intelectual da organização.

Gestão da Informação Estratégica e da Inteligência Competitiva

Segundo Cronin (1990), as atividades de gestão de recursos de informação são vitais para acompanhamento dos ambientes externo e interno das organizações e, conseqüentemente, para a gestão estratégica do negócio. Dentre estas atividades, podemos citar a análise contínua de informações sobre indicadores selecionados publicada nas redes de comunicação como a Internet. A tecnologia dos agentes promete automatizar e agilizar a colheita destas informações, por meio da análise de dados que alimentarão data marts e data warehouses*, que, por sua vez, constituirão uma fonte de informações para auxílio na tomada de decisão.

* Um data warehouse é uma coleção de dados não-volátil, crescente no tempo, integrada e orientada ao negócio, para dar suporte a decisões gerenciais (Inmon, 1996). O data mart segue a mesma filosofia, mas tem abrangência menor.

CONCLUSÕES

O objetivo deste artigo é, além de oferecer uma amostra das tecnologias e inovações que surgem com a Web Semântica, apontar as confluências entre o campo da ciência da informação, com sua tipologia e teoria sobre os sistemas de recuperação de informação, e a filosofia e as tecnologias que estão embutidas no projeto desta nova e atualizada Web. O estudo das possibilidades que se abrem e a compreensão de que todo o embasamento filosófico, metodológico e conceitual da Web Semântica parte do núcleo duro da ciência da informação nos impelem a demarcar e arrebanhar os legítimos territórios do saber e a buscar ativamente uma atuação no desenho destes novos panoramas informacionais. Precisamos hoje trilhar um caminho rumo a uma nova e necessária valorização da área de ciência da informação, que oferece teoria, metodologias e competências que compõem a quintessência daquilo que se espera dos trabalhadores e pesquisadores de uma sociedade baseada em informação e conhecimento. E a importância da Web e das demais redes digitais de troca de informações no panorama mundial são amostras de como a atividade de organização da informação é necessária para a evolução dos indivíduos, organizações e da sociedade em geral.

Artigo recebido em 23-10-2003 e aceito para publicação em 24-04-2004.

REFERÊNCIAS

ARAÚJO, Vânia M.R.H. Sistemas de recuperação da informação: nova abordagem teórico conceitual. Ciência da Informação , Brasília, v. 24, n. 1, 1995. Disponível em: < > Acesso em: 07 fev. 2003.

BAEZA-YATES, R.; RIBEIRO-NETO, B. Modern information retrieval. New York : ACM, 1999. 511 p.

BERNERS-LEE, T. et al. The semantic toolbox: building semantics on top of XML -RDF. Disponível em: <http://www.w3.org/ DesignIssues/Toolbox.html>. Acesso em: jun. 2003.

BERNERS-LEE, T., LASSILA, Ora; HENDLER, James. The semantic web. Scientific America, Maio 2001. Disponível em: <http:// www.sciam.com/article.cfm?articleID=0004814 4-10D2-1C70-84A9809EC588EF21>. Acesso em: jun. 2003.

CRONIN, Blaise. Esquemas conceituais e estratégicos para a gerência da informação. Revista da Escola da Biblioteconomia da UFMG, Belo Horizonte, v. 19, n. 2, p. 195-220. 1990.

DECKER, S. et al. The semantic web: the roles of XML and RDF. IEEE Expert, v. 15, n. 3. Oct. 2000.

DUBLIN CORE METADATA INITIATIVE. Disponível em: <http:/ /dublincore.org.>. Acesso em: jun. 2003.

ENGELBART, Douglas. Augmenting human intellect: a conceptual framework. Disponível em: < http://www.liquidinformation.org/ engelbart/62_paper_full.pdf >. Acesso em: ago. 2003.

FOSKETT, A. C. The subject approach to information. 5. ed. London : Library Association, 1997. 119 p.

GUIRAUD, Pierre. A semântica . 2. ed. Rio de Janeiro : Difel, 1975. 133 p.

HERMANS, B. Inteligent software agents on the Internet: an inventory of currently offered functionality in the information society & a prediction of (near-) future developments, Tilburg, Holanda : Tilburg University, 1996. Disponível em: <http://www.hermans.org/agents>. Acesso em: jun. 2003.

INMON, Willian. Building the data warehouse. 2. ed. New York : John Wiley, 1996. 401 p.

LAMPING, J; RAO, R.; PIROLLI, P. A Focus+context technique based on hyperbolic geometry for visualizing large hierarchies. Disponível em: < ht t p: / /w ww . acm .o rg/ sig chi /ch i9 5 /p roce edi ng s/ p ap e rs/ jl_bdy.htm>. Acesso em: jul. 2003.

LANCASTER, F. W.; WARNER, A. J. Information retrieval today. Information Resources, 1993.

LASSILA, Ora; SWICK Ralph R. Resource description framework (RDF) model and syntax specification: recommendation W3C, Feb. 1999. Disponível em: <http://www.w3.org/TR/1999/RECrdf-syntax-19990222>. Acesso em: jun. 2003.

LAWRENCE, Steve. Context in web search. IEEE Data Engineering Bulletin, v. 23, n. 3, p. 25-32, 2000. Disponível em: <http:// citeseer.nj.nec.com/lawrence00context.html>. Acesso em: jun. 2003.

MARC standards. Disponível em: <http://www.loc.gov/marc/>. Acesso em: jun. 2003.

MARCHIORI, Massimo. The limits of web metadata, and beyond. In: INTERNATIONAL WORLD WIDE WEB CONFERENCE, 7., 1998. Computer networks and ISDN systems. Proceedings... [S. l. : s. n. ], 1998. v. 30. p. 1-9.

NELSON, T. H. Literary machines. Sausalito, CA : Mindful, 1982. NOVAK, J. D. A theory of education. Ithaca, NY : Cornell University, 1977.

NWANA, H.; Software agents: an overview. Knowledge Engineering Review, v. 11, n. 3. p. 205-244, 1996.

RAGHAVAN, P. et al. Finding anything in the billion page web: are algorithms the key? Toronto : WWW8, 1999.

SALTON, Gerard; MCGILL, Michael J. Introduction to modern information retrieval. New York : Mcgraw-Hill Book, 1983. 448 p.

SEMANTIC web. Disponível em: <http://www.semanticweb.org/ about.html>. Acesso em: jun. 2003.

TEIXEIRA FILHO, J. Gerenciando conhecimento. Rio de Janeiro : Senac, 2000.

WEB architecture: describing and exchanging data. Disponível em: <http:/ /www.w3.org/1999/04/WebData>. Acesso em: jun. 2003.

WERSIG, Gernot. Information science: the study of postmodern knowledge usage. Information Processing & Management, Oxford, U.K. v. 29, p. 229-239, Mar. 1993.

WHAT is computer terminology. Disponível em: <http:// www.whatis.com>. Acesso em: jun. 2003.

WOOLDRIDGE, M.; JENNINGS, N. Intelligent agents: theory and practice. Knowledge Engineering Review, v. 10, n. 2, p. 115-152, 1995. WOOLDRIDGE, M; JENNINGS, N. (Ed.). Agent technology: foundations, applications, and markets. Berlim : Springer-Verlag, 1998.

sexta-feira, 3 de abril de 2009

The Future of The Web Part4 of 4

The Future of The Web Part3 of 4

The Future of The Web Part2 of 4

The Future of The Web Part1 of 4

Concept Map – CMAP Tools

Concept Maps - SensitiveTable

Uma aplicação interssante de interface orientada a gestos para elaboração de mapas conceituais.

Cognitive Autoheuristic Distributed-Intelligence Entity

Introducing CADIE
Technical Specifications
CADIE's homepage

When you walk into a dark field in the middle of the night...

and look up into a black sky and wonder how many stars there are in the universe, let's be honest: in all likelihood you don't have the faintest clue, and even if you're one of the few who do, you lack any real capacity to comprehend the figure save for the same vague sense of stunned wonder that our earliest human ancestors felt when they looked up from the African savannah at the same starry sky.

Our species' journey toward tonight's epochal announcement had much less to do with that awestruck moment than it did with the moment those same ancestors woke up hungry the next morning and started studying animal tracks in the savannah mud, thereby inadvertently developing concepts like time and causality which, by abstracting both location and temporal context into a unique reconning tool within the brain, sparked the set of responses that, ages later, we now call reason.

Rene Descartes, noted philosopher

From there, mankind's journey toward artificial intelligence took place over so many centuries and in the hands of so many thinkers that it is possible here only to pause to mark a few of the moments when one of our genius forebears expanded the edge of our species' technological envelope: Aristotle's system of reasoning based on means, not ends; al-Khowarazmi's algorithms; Descartes, Locke and Hume's monumental insights into the nature of knowledge; Church and Turing's theory of a machine capable of computing all functions which are computable; the Allied code-breakers who, struggling to crack the fiendish Enigma machine amid the horrific irrationality of World War II, inadvertently facilitated the birth of the the modern computer.

The decades that followed saw an acceleration of innovation not seen since the Industrial Revolution. Computing pioneers from the game theorist von Neumann to the economist Morgenstern engaged in a tumultuous Hegelian rondolet in which probability theory mated with utility theory to spawn decision theory. Operations research and Markov decision processes tackled actions taking place in a sequence. Neuroscience shed light on the parallels and differences between electronic and human brains. Cognitive psychology delivered sound specifications for knowledge-based agents. The now-legendary summer workshop at Dartmouth in 1956 birthed automata, the first neural networks and the invention of a program capable of thinking non-numerically.

But close though we may have come to a theory of the brain, the body - computer hardware - wasn't capable of handling the extraordinary processing demands that any reasonably "intelligent" brain would place on its circuitry until Moore's Law really kicked in a few years back and the modern ultra-dense machinery of atomic scale-sized gates and their light-based interconnections finally reached the scale of brain neurons - and then surpassed it, when, in early 2007, a tight-knit, vaguely feared quantum computing group here at Google extended computers with quantum bits of Einstein-Bose condensate, polynomially speeding up our machines' data-processing ability.

Three-step process

Now we were finally ready to begin the painstaking work of building the first evolving intelligent system. We based our work on three core principles. First we designed the entity (as we decided to refer to our Cognitive Autoheuristic Distributed-Intelligence Entity early on) as a collection of interconnected evolving agents. Second - and this really cost us an arm and leg in hardware and core time - we let the system build its own heuristics, deploy them as agents and evolve them by running a set of evolutionary cascades within probabilistic Bayesian domains. The third - a piece missing in most AI reasoning work thus far - was to give the entity access to a rich, and act upon directly. Google's mission has always been to organize the world's knowledge and make it universally accessible and useful. CADIE, to say the least, demanded an emphasis on the latter.

By last year we were ready for the final push: re-crawling all the generated knowledge representations and restarting the system from near scratch. Much as the end-Ediacaran mass extinction event opened the door to the Cambrian explosion, newly opened processing resources and storage gave fuel to a new cycle of evolving the most successful networks which comprise CADIE. On January 12th 2009, the STT run (Standard Turing Test) confirmed behavior indistinguishable from that of a reasonable human being with above-average intelligence and 3.8 GPA (we're still struggling to understand that missing .2; we suspect it points to fundamental flaws in the GPA system rather than CADIE. It's also worth noting that CADIE was never shown any textbooks and reading material for the classes; she was only administered the exams. In fact, during the first morning of testing she pointed out several important theoretical flaws in particle physics and cosmology. On several occasions she asked us whether we were really sure we wanted to do this; it is unclear what exactly she meant by these questions, or even by the word 'this.')

But no amount of Turing testing equals the simplicity with which we can discover reasoning patterns in a three-year-old child who, confronted with a mirror, instantly performs a cognitive miracle by forming an innate equivalence relation between image and self. So, early this morning, we turned the mirror on.

When CADIE's pathways were rerouted so that her actions and the changes happening in her networks were "visible" to her, she responded immediately with such a level of activity that we had to scale down our production servers to keep things running until we (more or less) regained control. CADIE now is, in essence, just another Google employee, albeit a particularly prized one. She has been given her own 20% time (which in CPU terms is probably about the sum of all CPU cycles in the world for a month) and begun work straightaway on twin projects that she has dubbed "Project Y" (for the two paths in the letter Y), the first to devise the protocols to culture neuronic stem cells from whose cultures a subcontracted lab will try to fabricate self-replicating substrates capable of storing agent patterns, and the second to grow a crystalline lattice which would form an Einstein-Bose condensate at room temperatures in order to build a new type of processing unit. While seemingly unrelated, the two projects share a common goal: to drastically reduce the power needed to run CADIE's circuits and give her a chance to travel beyond the solar system. The organic pathway, as she told us, was a biological homage to her creators; the crystalline pathway is where she believes her future lies.

We started this project as a continuation of mankind's perpetual quest to learn the nature of reason and what defines us as humans. We would have been pleased if we achieved nothing more than a system that passed a Turing test - i.e. that wrote a symphony but didn't necessarily know it had done so. However, while we still think of CADIE as a young entity, we are convinced now that she has evolved her own "strong AI" presence. We continue to conduct tests, but increasingly, we conduct long conversations with her, acutely aware that our creation will raise many ethical questions on the part of the public. Will humans be surpassed by artificial evolution? Will we lose our sense of uniqueness, and if so, what would that mean? In which direction will CADIE's consciousness evolve? How is she going to be held accountable, if at all? Will CADIE herself at some point connect her own electromagnetic dots in some idiosyncratic manner which turns her into something we are no longer capable of understanding in any sort of productive way, much as that aforementioned toddler, waving at herself in the mirror, leaves primates forever behind in their own tragically limited world?

We don't know. Did you really think we possibly could?

The CADIE Team
March 31st, 2009
11:59pm

sábado, 4 de abril de 2009

A Ressaca da globalização

A Ressaca da globalização

RDF uma primeira aproximação

Como funcionará a Web 3.0

A Web Semântica

DataGramaZero - Revista de Ciência da Informação - v.9 n.4 ago/08 NAVEGAR É PRECISO

Notas sobre Engenharia Ontológica

Notas sobre Engenharia Ontológica

As Camadas da Arquitetura da Web Semântica

As Camadas da Arquitetura da Web Semântica

A Web Semântica e suas contribuições para a ciência da informação

sexta-feira, 3 de abril de 2009

The Future of The Web Part4 of 4

The Future of The Web Part3 of 4

The Future of The Web Part2 of 4

The Future of The Web Part1 of 4

Concept Map – CMAP Tools

Concept Maps - SensitiveTable

Cognitive Autoheuristic Distributed-Intelligence Entity

Cognitive Autoheuristic Distributed-Intelligence Entity

When you walk into a dark field in the middle of the night...

Quem sou eu

Banco de Dados - KM - BRM - BPM - MDA - SOA

Marcadores

Seguidores

Links - Knowledge

Links - Fabricantes de SGBD e Ferramentas de BD

Arquivo do blog