
おそらく今までコンテンツを取得する必要, それの全体または一部, Web, データを収集するかどうか、または任意の種類の 監視 何かについて, またはあなた自身を作成する理由 クローラー, スキャン サイト, 行うと、 ボット Google, ビング, ヤフー,…
PHP でこのタスクを実行することができます非常に便利なライブラリがあります。. 彼の名前は カール 異なるプロトコルを使用して他の環境に接続することができます、. カールを使用して、我々 は、PHP の web サイトのコンテンツを取得する方法を参照してくださいしています。.
カールの PHP ライブラリを使用して Web ページの内容を取得する方法
CURL ライブラリを使用してください。, あなたが得ることができる、 コンテンツ 完全なウェブサイト. あなたのコンテンツを作成したら, 任意の検索を実行できます。. 例として, コードで PHP ここでは、表示, 我々 はパラメーターとして渡される URL アドレスを持つ web サイトのコンテンツを取得する機能を持っています。, および web ページを表す文字列を返します.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 | function getContenidoWeb($url){ $ch = curl_init(); curl_setopt($ch, CURLOPT_HEADER, 0); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_URL, $url); $data = curl_exec($ch); curl_close($ch); return $data; } //Ejemplo de uso $cadena = getContenidoWeb('http://www.web.com'); |
一度文字列に web コンテンツがあります。, 1 つの可能性は、します。 parsearlo オブジェクトにそれを回すと XML o DOM, そんなに簡単に処理.
この例は、クラスを使用してください。 DOMDocument. このクラスを使用して以前に取得した文字列を解析し、そのそれぞれの DOM ツリーまたは XML オブジェクトにそれを回すことができます。. これの例は次のとおり:
1 2 | $doc = new DOMDocument(); $doc->loadHTML($cadena); |
このコードで, 我々 は、を見ることができます。, 最初です, DOMDocument ドキュメントを作成します。, 後に変数の内容をロードします。 $チェーン, それは 1 つの関数は以前に取得 getContenidoWeb.
このように PHP を使用して Web ページの内容を取得、後に XML、またはそれのより良い管理できるように、それぞれの DOM ツリーを変換することができます。.
