Scraping de Amazon con PHP, cURL y DOM Document – Parte I

Después de muchas vueltas y vueltas para aprender sobre scraping, pase por muchas formas de hacerlo al menos utilizando php, desde utilizar un file_get_contents con una expresión regular, hasta este momento donde con conocimientos mas avanzados estoy utilizando cURL y DOM Document, bueno de aquí en adelante no soy responsable del uso que le des al conocimiento adquirido.

Requisitos :

  • PHP 5.4.x
  • Extension cURL instalada
  • Instalar Dom Documen

Listo, con esto quedamos listoo. por si no tienes alguna te explicare como instalarlas a continuación.

Instalando cURL, bueno para esto es simple primero instala cURL en el servidor.

yum install curl

esa es la forma simple de hacerlo, ese comando te funcionara perfecto en familias linux que procedan de RedHat(Centos, Fedora, Etc).

Con curl instalado en nuestro server, ahora realizamos lo siguiente.

yum install php-curl

Después de esto tendremos habilitada la extensión curl para php, pero ahora debemos habilitar la extensión Dom Document, esta se encuentra empaquetada en grupo de extensiones de XML para esto usamos yum de la siguiente forma.

yum install php-xml

con estas tres puntos tendremos listo nuestra base para hacerle un scraping a amazon o cualquier sitio, siempre y cuando no usemos usuario y contraseña. jejeje.

Peroooo….. siento decirte que nos vemos en la segunda parte. saludos y pendientes.

Deja un comentario