ANÁLISIS DE METADATOS DE NOTICIAS PARA LA EXTRACCIÓN DE INFORMACIÓN DE CÓDIGO FUENTE. EL SOFTWARE METADADOSHTML
No Thumbnail Available
Date
2017-03
Journal Title
Journal ISSN
Volume Title
Publisher
Information Research an international electronic journal
Abstract
Introducción. Los objetivos de este trabajo son 1) determinar qué esquemas se utilizan para
título, resumen, palabras clave, autoría y periódico en prensa; 2), conocer qué pautas siguen los
periódicos en la implementación de dichos esquemas; 3) averiguar cómo esto afecta a la
extracción de valores de datos.
Metodología. Para ello, se define una muestra de diarios y se analiza su código fuente,
identificando esquemas utilizados y patrones de uso. Esto permite extraer valores de dato
utilizando la aplicación MetadadosHTML.
Resultados. Se han detectado esquemas estándar, ad hoc y propios de los periódicos. Se han
hallado diversas prácticas, como valores agrupados en una misma línea de código o por
separado; ruido en un valor y errores al referir los nombres de los atributos de esquemas
estándar.
Conclusiones. Ello dificulta la extracción de información, por cuanto es necesario no sólo
conocer esquemas y atributos, hay que saber qué prácticas sigue cada medio. Los errores al
referir los nombres de los atributos impediría la extracción de valores de dato siguiendo los
esquemas. Es necesario avanzar en el uso de estándares. También resulta imprescindible la
adopción de buenas prácticas en el uso de esquemas estándar, ad hoc y propietarios.
Description
Keywords
Metadatos, esquemas de metadatos, periódicos, palabras clave, extracción de información, MetadadosHTML, HTML, Open Graph Protocol, Twitter Cards, Schema.org, The New York Times
Citation
https://www.researchgate.net/publication/315210943
