EspañolDeutschFrançaisItalianoPortuguêsРусскийΕλληνικά日本語中文(简体)हिन्दी; हिंदीالعربية
PF Preguntas - Foro

Cómo obtener el contenido de una Web en PHP. Haz tu propio Crawler.

Programación PHP  
 
Cómo obtener el contenido de una Web en PHP. Haz tu propio Crawler.

Posiblemente hayas necesitado alguna vez obtener el contenido, o parte de éste, de una web, ya sea para recopilar datos o para realizar cualquier tipo de monitorización sobre algo, o simplemente porque quieres crear tu propio crawler, el cual analice páginas webs, como lo hacen los bots de Google, Bing, Yahoo,…

En PHP existe una librería bastante útil que nos ayuda a realizar este cometido. Su nombre es cURL y permite la conexión a otros entornos mediante distintos protocolos. Mediante cURL vamos a ver como puedes obtener el contenido de una Web en PHP.

Cómo obtener el contenido de una Web en PHP. Haz tu propio Crawler - Image 1 - professor-falken.com

Cómo obtener el contenido de una página Web mediante la librería cURL en PHP

 

Usando la librería cURL, puedes obtener el contenido completo de una página web. Una vez tengas su contenido, puedes realizar cualquier búsqueda sobre el mismo. Como ejemplo, en el código en PHP que te mostramos a continuación, tenemos una función que obtiene el contenido de una web cuya dirección URL se le pasa como parámetro, y devuelve una cadena de texto que representa a dicha página web.

Una vez que tengas el contenido de la web en una cadena, una posibilidad es parsearlo y convertirlo en un objeto XML o DOM, para que así sea más fácil su manejo.

Un ejemplo de ello es usando la clase DOMDocument. Mediante esta clase puedes parsear la cadena que has obtenido anteriormente y convertirla en un objeto XML o su respectivo árbol DOM. Un ejemplo de ello es el siguiente:

En este código, podemos ver como, en primer lugar, creamos un documento DOMDocument, en el que posteriormente cargamos el contenido de la variable $cadena, que es la obtenida anteriormente de la función getContenidoWeb.

De esta forma puedes obtener el contenido de una página Web mediante PHP y posteriormente convertirlo a XML o a su respectivo árbol DOM para poder gestionarlo de mejor manera.

 

Déjanos un comentario o entra al  Foro
Share on Facebook Tweet about this on Twitter Share on Google+ Pin on Pinterest Share on Reddit Share on VK Share on StumbleUpon Share on Tumblr Share on LinkedIn Email this to someone Print this page
Etiquetas:

Artículos relacionados