Automatización del proceso de transformación de formatos de publicaciones en revistas científicas a través de script en Phyton


Murillo, Danny; López, Sucel

La divulgación y difusión científica es el medio para que la sociedad y otros científicos sean conscientes de los resultados de la investigación y la generación de nuevos conocimientos. En los últimos años, las revistas científicas en formato digital se han convertido en el medio más utilizado para mostrar estos resultados, pero es necesario considerar si vamos a publicar o consultar una revista para analizar algunos aspectos de ellas, como su presentación, forma de distribución, calidad de su contenido e impacto de la revista. Aunque todos estos elementos son de interés, la forma de distribución es de gran relevancia, ya que está vinculada a la visibilidad de la revista; si no se encuentra, no se lee ni se cita. Sin embargo, sin formatos de publicación diversos, no podremos mejorar el alcance digital de quienes utilizan este contenido. Según datos del informe de Scholastica, una plataforma web de pago que incluye a más de 900 editores de revistas académicas, los formatos más utilizados son pdf y html. En algunos estudios realizados en América Central, específicamente en Costa Rica y Panamá, los formatos de revistas científicas utilizados son pdf, html, ePub, xml-jats, audio y Flipbook. De las 185 revistas evaluadas, solo el 50% utiliza dos formatos y apenas el 15% utiliza más de tres formatos, siendo html y pdf los más comunes. Sin embargo, la limitación no es solo el uso de software como MS Word para transformar pdf a html debido a las limitaciones, sino que, según los editores, no utilizan otros formatos porque desconocen el software utilizado para este proceso. En el caso de las revistas panameñas, de 30 revistas evaluadas, el 100% utilizaba pdf, solo seis utilizaban html y solo cuatro revistas usaban más de tres formatos, por lo que podemos decir que existe una deficiencia en la cantidad de formatos y, probablemente, en el tiempo que el proceso de transformación pueda llevar a los editores. El objetivo de este trabajo es generar un script utilizando Python como lenguaje de programación para automatizar el proceso de transformación de formatos de artículos científicos en docx a otros formatos como pdf, html, ePub, txt y audio, minimizando el uso de software y reduciendo el tiempo de procesamiento de estos documentos. En las pruebas realizadas con el script, fue necesario generar formatos de estilo de caracteres para lograr buenos resultados, donde no solo fue posible transformar 24 artículos de dos revistas panameñas en los cinco formatos, sino que el tiempo de transformación fue de 15 minutos en comparación con las 15 horas que llevó a los editores realizar esta transformación.
Scientific disclosure and diffusion is the way to make society and other scientists aware of the research results and the generation of new knowledge. Over the last few years, scientific journals in digital format have become the most widely used medium to demonstrate these results, but mentioning whether we are going to publish or consult a journal is necessary to analyze some aspects of them such as: their presentation, form of distribution, quality of its content and impact of the magazine. Although all these elements are of interest, the form of distribution is of great relevance since it is linked to the visibility of the journal, if it is not found, it is not read or cited, but without the publication formats they are not diverse, neither We will be able to improve the digital reach of those who use this content. According to data from the Scholastica report, a paid web platform that includes more than 900 publishers of academic journals, the most used formats are pdf and html. In some studies carried out in Central America, specifically Costa Rica and Panama, the formats of scientific journals used are pdf, html, ePub, xml-jats, audio and Flipbook. Of the 185 journals evaluated, only 50% use two formats and barely 15% use more than three formats, the most common being html and pdf. However, the limitation is not only the use of software such as MS Word to transform pdf to html due to the limitations, but according to the editors they do not use other formats because they are unaware of the software used for this process. In the case of Panamanian journals, of 30 journals evaluated, 100% used pdf, only six used html, and only four journals used more than three formats, so we can say that there is a deficiency in the number of formats and probably in the time that the transformation process may take publishers. The objective of this work is to generate a script using Python as programming language to automate the process of transforming scientific article formats in docx, to other formats such as pdf, html, ePub, txt and audio, minimizing the use of software and reducing the processing time of these documents. In the tests carried out with the script, it was necessary to generate document character style formats to achieve good results, where it was not only possible to transform 24 articles from two Panamanian magazines into the five formats, but the transformation time was 15 minutes compared to the 15 hours it took publishers for this transformation.

Publication Year
RI de Documento Digitales de Acceso Abierto de la UTP
Get full text