JWikiDump

intro

JWikiDump es una humilde libreria (módulo) escrito en Java cuya finalidad es ofrecer una forma cómoda de parsear y procesar un archivo XML (XML Dump) que periodicamente publica Wikipedia con todos los Artículos actuales.

JWikiDump ofrece realizar un parseo del XML Dump, y luego tomar una serie de acciones como puede ser Filtrar ciertas páginas y/o Procesarlas para darles persitencia por ejemplo, u otro tipo de tareas predefinidas. También está la posibilidad de que de una forma muy sencilla uno puede escribir sus própias clases ("módulos"), como son los Filtros y Procesadores, conviertolo en una pequeña herramienta versátil y que provee un humilde marco de desarrollo.

características

Esta escrito en Java por lo tanto es multiplataforma, y no obliga al usuario estar atado a una sola "pila" de desarrollo (SDK, BBDD, Servidor, etc..).
Discrimina en todo momento entre Paginas y Paginas con Redirecciones, ofreciendo tareas utiles para ambos casos
Facilita acciones de Filtrado:
- Nombre, Año, Categoria, etc..
- Paginas Especiales de Wikipedia.
- Filtrado de Redirecciones "Innecesarias".
Provee de algunos modulos básicos para Procesar dichas Paginas, principalmente de Persientencia en BBDD y/o un nuevo XML (al estilo del original).
Facilmente un Usuario puede escribir un nuevo Modulo (clase) para Filtrar o bien Procesar Paginas
Esta en Español

links de interés

Puede darse una vuelta por la página de sourceforge del proyecto donde puede descargarse JWikiDump para probarlo y/o participar de cualquier forma. Para arrancar a usarlo le recomiendo que lea la seccion de Documentación, donde se explica mas acerca de los distintos Objetos que intervienen y hay simples ejemplos disponibles.

O bien puede visitar mi blog donde hago ciertos comentarios al respecto

+info

como se desarrolla

Actualmente el Proyecto se desarrolla en el marco de lo personal, como fruto de una idea y el deseo de querer llevarla a cabo. Aclaro que su desarrollo no es "profesional", pero aun así se tienen en cuenta,en la medida que se pueda, muchas buenas prácticas y usos en dicho proceso.

El proyecto se desarrolla usando Netbeans, y se consulta parte de la Documentación oficial de la sintaxis de Wikipedia y se examina distintos casos en el XML Dump, para corroborar y determinar usos por parte de los Editores de las Paginas.

motivación de uso

JWikiDump puede ser usado en diversos contextos:

En el Uso personal de MediaWiki: Es posible lograr tener una version offline de Wikipedia con Articulos filtrados
Desarrollos de terceros:: Periodicamente uno puede descargarse un nuevo XML Dump, y procesarlo de forma sencilla y ese resultado ser la fuente consultada por una Herramienta externa, por ejemplo tras almacenar Paginas en una Base de Datos.
Estadisticas y/o Extraccion de datos:: Uno puede escribir módulos para contabilizar datos que son de interes, y que no son publicados en ningún lado, o bien desea detectar errores de sintaxis o malas prácticas.; Por otro lado extraer algún contenido específico que se requiere solo bajo ciertas condiciones.
Redistribucion del XML Dump:: Se puede ofrecer un nuevo XML Dump seleccionando articulos, o bien uno (un poco) más "optimizado".

acerca del xml dump

El archivo XML Dump es denominado eswiki-pages-articles [ver], es el de la versión en Español de Wikipedia. Su principal características es que posee todas las paginas (articulos, redirecciones, etc..) publicadas actualmente, con lo cual esto produce que estemos trabajando con un Archivo que facilmente supera los 5GB y que tiende a crecer.

A su vez vale la pena aclarar que dicho xml usado fuera de lo que es MediaWiki contiene mucha redundancia, principalemente presente en las que se denominan Páginas Redireccionadas. Esto implica que,en la mayoria de los casos, requiera ser procesado para "limpiarlo".