14/12/10

integración de OCR en Alfresco

Por un lado, OCR (Optical character recognition) es un software de reconocimiento de texto que saca de una imagen el texto que contiene y lo transforma en cadenas de caracteres para guardarlos en un formato que se pueda utilizar en programas de edición de texto.
Por otra parte Alfresco es un sistema de administración de contenidos libre, basado en estándares abiertos y de escala empresarial y que se utiliza para sistemas operativos.

Para digitalizar una gran cantidad de contenidos en soporte papel y extraer su contenido vía OCR para poderlo indexar con Alfresco, disponemos de varias herramientas que permiten revisión, OCR zonal, mayor escalabilidad, mapeo de metadatos, capacidades de integración, inyección masiva etc..
Para ello se encuentran las siguientes aplicaciones:Kofax Ascent Capture, Introspeqt InstaCapture,Ephesoft,Cobra Technologies o Sira Systems.

 Podemos configurar  Alfresco para indexar el contenido de un fichero TIF escaneado, pasándole a cada fichero TIF un OCR de forma transparente para el usuario para que posteriormente podamos subirlo al repositorio y  localizarlo buscando por el contenido del mismo.

Como hemos comentado anteriormente, con las indicaciones que se explican a continuación conseguimos extraer la información OCR de un fichero TIF de forma transparente


No hay comentarios:

Publicar un comentario