DocHive: Solución de código abierto para extraer datos de archivos PDF



Un grupo de periodistas han anunciado el lanzamiento de su innovadora solución de código abierto para el problema de muchos escritores y periodistas tienen la forma de tomar los datos en archivos PDF o imágenes con facilidad y convertirlo en una hoja de cálculo o en formato utilizable otro.



El editor Charles Duncan Pardo y su equipo de periodistas en el Raleigh Public Record  se encontraban a diario el típico problema que ocurre en muchas pequeñas salas de redacción; no disponen del personal suficiente para hacer la entrada de datos de cientos de páginas de información, ni el presupuesto para contratar a algún estudiante universitario que lo haga para ellos.

Así es como Duncan creó junto con su hermano Edward (programador a tiempo completo) una solución llamada DocHive. Este programa Utiliza XML para romper una página en pequeñas secciones, separando cada uno en su propio archivo de imagen, a continuación, utiliza tecnología de reconocimiento óptico de caracteres (OCR ) para leer las palabras o los números pares e insertarla en un archivo de texto.

DocHive será lanzado oficialmente el 28 de febrero. El código estará en GitHub y se creará un Wiki en el servidor para compartir plantillas y documentación. La elección de licencia de uso es lo que aún no se ha determinado.

DocHive claramente se presenta como una gran noticia para los periodistas, escritores y usuarios en general de todo el mundo, que tendrán así una manera fácil y rápidamente convertir los datos en información estructurada.

Duncan y su hermano Edward presentarán DocHive en la conferencia NICAR en Louisville, KY, el 1 de marzo.

Fuentes: opensource.com & raleighpublicrecord.org

No hay comentarios:

Publicar un comentario