El editor Charles Duncan Pardo y su equipo de periodistas en el Raleigh Public Record se encontraban a diario el típico problema que ocurre en muchas pequeñas salas de redacción; no disponen del personal suficiente para hacer la entrada de datos de cientos de páginas de información, ni el presupuesto para contratar a algún estudiante universitario que lo haga para ellos.
Así es como Duncan creó junto con su hermano Edward (programador a tiempo completo) una solución llamada DocHive. Este programa Utiliza XML para romper una página en pequeñas secciones, separando cada uno en su propio archivo de imagen, a continuación, utiliza tecnología de reconocimiento óptico de caracteres (OCR ) para leer las palabras o los números pares e insertarla en un archivo de texto.
DocHive será lanzado oficialmente el 28 de febrero. El código estará en GitHub y se creará un Wiki en el servidor para compartir plantillas y documentación. La elección de licencia de uso es lo que aún no se ha determinado.
DocHive claramente se presenta como una gran noticia para los periodistas, escritores y usuarios en general de todo el mundo, que tendrán así una manera fácil y rápidamente convertir los datos en información estructurada.
Duncan y su hermano Edward presentarán DocHive en la conferencia NICAR en Louisville, KY, el 1 de marzo.
Fuentes: opensource.com & raleighpublicrecord.org
No hay comentarios:
Publicar un comentario