Realizando un recorrido completo de SourceForge, mientras inventariaba todas las tecnologías listadas relacionadas con Servicios Web, me di cuenta -al llegar a la página 14- que si queria terminar en este año debería haber un mecanismo para hacer eso más rápido. Sin embargo estuve buscando un servicio de SF.net público para obtener el resultado de una búsqueda en el SoftwareMap. No lo encontre, no se si exista, pero en todo caso no lo pude ver.
Me anime, y prepare un script que le entra un documento HTML, en este caso un listado de busqueda de SF, y genera un documento XML basado en tres criterios preestablecidos: nombre del proyecto, enlace y nombre. Asi puedo hacer un script bash para ir página por página y generar xml’s de cada una de ellas y luego transformar el xml en otra cosa más de utilidad.
La desventaja es que sólo funciona para el buscador de SF.net (esta cableado con las propiedades del HTML) pero me resuelve mi problema por ahora. Seria interesante seguir con esta idea incorporando IA, reconocimiento de patrones, etc.
Aqui el código, bastante simple
URL de entrada:
http://sourceforge.net/search/?type_of_search=soft&words=web+services
y un extracto de la salida del documento XML
<proyectos>
<proyecto>
<nombre>XML/XSLT Web Services Framework (XWSF)</nombre>
<enlace>/projects/xwsf/</enlace>
<descripcion>Bionanny is a tool for Web Services providers. It allows to monitor other Web Services. It can intercept requests incoming from clients, pass it to the destination Web Service and log number of requests and elapsed time spend by services.</descripcion>
</proyecto>
…
</proyectos>
