CADWeb – Categorização automática de documentos digitais


PorRoger Lamin- Postado em 11 setembro 2017

Autores: 
Georgia Regina Rodrigues Gomes
Rubens de Oliveira Moraes Filho

Resumo:

   Com a evolução da tecnologia da informação e a disseminação de documentos digitais na Web, faz-se necessário criar meios que forneçam um mecanismo de organização de tais documentos, facilitando sua busca e recuperação. Em bibliotecas digitais ou repositórios de obras eletrônicas, por exemplo, existe a necessidade de uma ferramenta que possa classificar automaticamente os documentos, visto que o processo de classificação (categorização) é feito de forma manual. Esta ferramenta será de grande importância no apoio à catalogação. Este artigo apresenta o desenvolvimento de uma ferramenta que tem como objetivo principal classificar automaticamente documentos digitais em categorias preestabelecidas, nas quais cada documento pertencerá a uma ou mais categorias de acordo com seu conteúdo, tornando assim mais eficaz e rápida a classificação. Na elaboração da ferramenta foram utilizadas técnicas e algoritmos de mineração de textos, sendo definidas no estudo de caso algumas categorias e termos relacionados, tais como informática, direito e física, para validar a ferramenta.

Palavras-chave: Tecnologia da informação. Categorização. Biblioteca digital. Mineração de texto. Documentos digitais.
 

Abstract

   The evolution of information technology and dissemination of digital documents on the Web calls for a mechanism for the organization of such documents in order to facilitate the search and recall processes.  In digital libraries or
CADWeb – Categorização automática de documentos digitais
Georgia Regina Rodrigues Gomes Doutora em informática pela Pontifícia Universidade Católica do Rio de Janeiro. Professora adjunta da Universidade Cândido Mendes. Rio de Janeiro, RJ - Brasil E-mail: geogomes@ig.com.br Rubens de Oliveira Moraes Filho Aluno de ciência da computação pela Universidade Cândido Mendes. Rio de Janeiro, RJ - Brasil. E-mail: rubens_olv@hotmail.com
repositories of electronic works, for example, there is a need for tools that will automatically classify documents, since the classification process (categorizations) is done manually.  Such a tool will represent an important resource and support for cataloging.  This article presents the development of a tool whose chief objective is to categorize digital documents automatically, using preestablished categories, where each document will belong to one or more categories according to its content, thus making the classification of such documents more efficient and also quicker. Techniques and algorithms of text mining were used to develop and validate the tool; also, some categories were defined in the case study, as well as related terms such as: information technology, law and physics.

Keywords: Information technology. Categorization. Digital libraries. Text mining. Digital documents.