Data Mining é uma tecnologia que emergiu da intersecção de três áreas: estatística clássica, inteligência artificial e aprendizado de máquina, sendo a primeira a mais antiga delas. Observa-se que o Data Mining é parte de um processo maior conhecido como KDD (Knowledge Discovery in Databases) – em português, Descoberta de Conhecimento em Bases de Dados –, que, segundo Addrians & Zantinge (1996), permite a extração não trivial de conhecimento previamente desconhecido e potencialmente útil de um banco de dados. Esse conceito é enfatizado por Fayyad et al. (1996b), ao afirmar que é “o processo não trivial de identificação de padrões válidos, desconhecidos, potencialmente úteis e, no final das contas, compreensíveis em dados”. Nesse contexto, o presente artigo tem como finalidade apresentar conceitos sobre as principais técnicas que envolvem a descoberta de conhecimento em grandes conjuntos de dados e relatar algumas características de um software específico para mineração de dados, o Clementine, da SPSS, bem como aplicações realizadas nesta ferramenta. Assim, são mostrados o processo de descoberta de conhecimento (KDD) e o Data Mining (DM), como parte desse processo, bem como suas técnicas e as metodologias estatísticas que as fundamentam. Em seguida, são discutidas as características de uma ferramenta de Data Mining, o Clementine, da SPSS, com a qual se desenvolve a aplicação relatada neste texto.
DESCOBERTA DE CONHECIMENTO (KDD) E DATA MINING (DM)
Considere-se uma hierarquia de complexidade: se algum significado especial é atribuído a um dado, ele se transforma em uma informação (ou fato). De acordo com Sade (1996), se uma norma (ou regra) é elaborada, a interpretação do confronto entre o fato e a regra constitui um conhecimento. O processo KDD é constituído de várias etapas, como ilustrado na figura 1, que são executadas de forma interativa e iterativa. De acordo com Brachman & Anand (1996), as etapas são interativas porque envolvem a cooperação da pessoa responsável pela análise de dados, cujo conhecimento sobre o domínio orientará a execução do processo. Por sua vez, a iteração deve-se ao fato de que, com freqüência, esse processo não é executado de forma seqüencial, mas envolve repetidas seleções de parâmetros e conjunto de dados, aplicações das técnicas de Data Mining e posterior análise dos resultados obtidos, a fim de refinar os conhecimentos extraídos. Dentre as várias etapas do processo KDD, a principal, que forma o núcleo do processo e que, muitas vezes, confunde-se com ele, chama-se Data Mining.
DATA MINING
Data Mining, ou Mineração de Dados, pode ser entendido como o processo de extração de informações, sem conhecimento prévio, de um grande banco de dados e seu uso para tomada de decisões. É uma metodologia aplicada em diversas áreas que usam o conhecimento, como empresas, indústrias e instituições de pesquisa. Data Mining define o processo automatizado de captura e análise de grandes conjuntos de dados para extrair um significado, sendo usado tanto para descrever características do passado como para predizer tendências para o futuro.
CLEMENTINE: UMA FERRAMENTA DE DATA MINING
Todos os passos do processo de descoberta de conhecimento podem ser realizados pelo Clementine. No entanto, segundo o manual do usuário (Clementine Users Guide, 2001), a metodologia indicada para ser usada em conjunto com a ferramenta é o modelo CRISP-DM (Cross-Industry Standard Process for Data Mining), que foi desenvolvido a partir da experiência de três empresas pioneiras no setor: a DaimlerChrysler, que aplica análises de Data Mining em seus negócios desde 1996; a NCR, que provê soluções de Data Warehouse; e a SPSS, que disponibiliza soluções baseadas no processo de mineração de dados desde 1990. Essa metodologia é composta por seis fases, como ilustrado na figura abaixo.
Como pode ser observada na figura, a seqüência das fases desse processo não é rígida. Voltar e ir avante entre as diferentes fases é sempre necessário. Dessa forma, uma fase depende do resultado de outra,
ou da tarefa particular de uma fase que precisa ser executada na próxima etapa. O círculo externo simboliza a natureza cíclica do processo de Data Mining.
A Interface de Programação Visual do
Clementine.
A área de trabalho, ou desktop, também chamada de stream pane, é a área de construção e manipulação dos streams e dados. Em outras palavras, é a área de construção do modelo de Data Mining. Os nós apresentam-se agrupados de acordo com seu tipo de funcionalidade na paleta de objetos localizada na parte inferior da área de trabalho do Clementine, que pode ser acessado e do qual é possível importar dados, por meio das funcionalidades dos nós do grupo Source; manipular registros e campos, através do grupo Record Ops; visualizar os dados a partir de gráficos contidos nos diversos nós do grupo Graphs; construir modelos por meio de uma variedade de técnicas de modelagem disponíveis no grupo Modelling; e avaliar os resultados com os recursos do grupo Output. A paleta de modelos gerados, localizada à direita do leitor na área de trabalho, contém os resultados de um modelo construído depois de executado. Para executar um modelo, basta clicar no botão de execução, abaixo da paleta de modelos gerados. Ao se clicar no botão, todos os streams válidos são executados. O Report Window, localizado abaixo da paleta de objetos, provê um feedback do progresso de várias operações, tal como quando os dados estão sendo lidos. O Status Window, também abaixo da paleta de objetos, provê informação sobre o que a aplicação está realizando no momento, bem como mensagens de pedido de retorno do usuário.