Vous n'êtes pas identifié(e).
Bonjour,
Je souhaite extraire les métas et le plaintext (texte html) d'une url, je coince en recherchant la version fr de l'url
Initialement j'ai
// +-------- Y a t'il une redirection -------------+
$lastUrl = curl_getinfo($ch, CURLINFO_EFFECTIVE_URL);
if ($lastUrl != ""){
$url = "$lastUrl";
}
else{
$url ="$url";
}
// +-------- Je vérifie s'il n'y a pas une redirection par un méta refresh... -------------+
preg_match("'<meta[\s]*http-equiv[^>]*?content[\s]*=[\s]*[\"\']?\d+;[\s]*URL[\s]*=[\s]*[\"\']?([^\"\']*?)[\"\']?>'i", file_get_contents($url), $matches);
$refresh = $matches[1];
//etc..........et j'ai une nouvelle $url nettoyée de tout
j'arrive donc à une nouvelle url, de cette nouvelle url j'aimerais donc extraire les informations que j'ai besoin, mais avant, je dois être certain
d'être sur la version fr du site (par exemple http://instagram.com/)
Avec cette adresse/url, je récupère les métas et le texte html, malheureusement en anglais et je souhaiterais les récupérer mais en français
j'essaye de faire ceci
Et comme ce bout de code doit être faux, ma varaible $url devient vide
Avez-vous une idée sur mon/mes erreur(s) ?
D'avance merci
Yule
Hors ligne
Bonjour,
Il vous faut parser mieux que cela votre header en tenant compte de la DTD de votre document. Un peu de lecture :
W3C : Métadonnées
Bon week-end
POO PHP+Ajax en MVC avec PDO et Bases de données épaisses : What else?
Hors ligne