Curl update: phpinfo zeigt immer noch alte Version an.

nexus · Dec 3, 2022

Andreas2022 said:
Wie in etwa sollte die Bedingung bzw. Schleife im Skript dann aussehen

Das kann ich dir nicht sagen, weil ich a) dein Script nicht kenne und b) eher wenig mit Programmierung ansich zu tun habe, ich komme aus der Ecke der Administration...

Andreas2022 said:
was heißt rekursiv?

Das bedeutet, daß das Script eine bestimmte Anzahl Durchläufe abarbeiten soll, anschließend prüft, ob noch weitere Durchläufe gemacht werden müssen...wenn ja, speichert das Script seinen aktuellen Bearbeitungsstand zwischen und ruft sich selber neu auf. Dann liest das 'neue' Script den letzten Bearbeitungsstand ein, den du zwischengespeichert hast und macht an der Stelle weiter und absolviert die nächsten x Durchläufe deiner Adressermittlungen.
Durch den rekursiven Aufruf kann das Script quasi endlos laufen, ohne daß du dich um Time Limits kümmern brauchst.

Wie du das dann programmtechnisch umsetzt, wirst du ja sicher wissen

Andreas2022 · Dec 3, 2022

Alles klar, danke, ich werde es versuchen ;-)

GwenDragon · Dec 3, 2022

@Andreas2022 Viel Erfolg beim Basteln des eigenen PHP-Programms.
Ich kann/will auch nicht weiter helfen, da die Quelle des Programms und der Code so dein großes Geheimnis bleibt.
Und diffuse Lösungsideen dir entgegen zu werfen, ohne code zu kennen, liegt mir nicht. Da könnte ich dir genauso Perl oder Python empfehlen, um den HTML-Code über LWP oder curl o.ä. zu holen und das HTML nach Bild-Links zu parsen.

GwenDragon · Dec 3, 2022

Crosspost auf https://talk.plesk.com/threads/curl-update-phpinfo-still-showing-old-version.367401/ - da hat Andreas2022 auch wenig Glück ein neueres php-curl zu ergattern.

ThomasChr · Dec 3, 2022

Php hat doch standardmäßig einen execution_timeout oder so. Ist das in deiner php.ini (Achtung: Die php.ini für die cli, nicht für den webserver!) aktiv?

Ich persönlich glaube nicht dass der Fehler in der curl-lib liegt. Wie kommst du darauf?

Außerdem würde ich eher eine andere Programmiersprache nehmen für die Aufgabe. Python hat ganz gute Web Scraping Module und Go wäre Mittel der Wahl wenn du ordentlich parallelisieren willst.

Achja, wenn du so ein Script per Cron startest solltest du natürlich sicherstellen dass es nicht länger läuft als bis zum nächsten cron-aufruf. Sonst kriegste irgendwann auch den dicksten Server in die Knie.

MadMakz · Dec 3, 2022

Andreas2022 said:
Nein, kein Absturz. Cron meldet, dass der Job erfolgreich beendet wurde (Status 200). Jedoch wurden nur einige 100 Datensätze abgearbeitet. Merkwürdig ist, dass sich die Zahl der abgearbeiteten Daten nach und nach erhöht, je öfter ich das Skript laufen lasse.

Definitiv kein CURL Problem. Hier ist irgendwo ein Ratelimit. Sei es bei Wikipedia (was du machst darf man nämlich als DoS bezeichnen) oder irgendwo Lokal.

Andreas2022 · Dec 3, 2022

@GwenDragon keine Ahnung, was der schnippische Ton soll.
@ThomasChr wegen der php.ini werde ich noch mal nachschauen. Als blutiger curl-Anfänger habe ich gedacht, dass die neuere curl-version vielleicht besser mit sehr vielen URLs umgehen kann. Mit PHP kenne ich mich etwas aus, andere Skriptsprachen wären totales Neuland. Und danke für den Tipp mit dem Cronjob, das wäre meine nächste Überlegung gewesen, das Skript in mehreren Teilen mit weniger URLs laufen zu lassen.

Andreas2022 · Dec 3, 2022

MadMakz said:
Definitiv kein CURL Problem. Hier ist irgendwo ein Ratelimit. Sei es bei Wikipedia (was du machst darf man nämlich als DoS bezeichnen) oder irgendwo Lokal.

Alles klar, danke für den Tipp!

MadMakz · Dec 3, 2022

Andreas2022 said:
Alles klar, danke für den Tipp!

Ich weiß zwar nicht wie umfänglich diese ist aber Wikipedia bietet eine authed API mit bis zu 5000req/h oder anonymous mit 500req/h an.

Solltest du dir mal anshauen bevor Wikipedia deine IP bannt wenn du da regelmäßig 10k ungebremste Anfragen hinschickst.

https://api.wikimedia.org/wiki/Documentation/Getting_started/Rate_limits

Die Endpoints für DE z.B. https://de.wikipedia.org/w/api.php

Andreas2022 · Dec 3, 2022

MadMakz said:
Ich weiß zwar nicht wie umfänglich diese ist aber Wikipedia bietet eine authed API mit bis zu 5000req/h oder anonymous mit 500req/h an.

Solltest du dir mal anshauen bevor Wikipedia deine IP bannt wenn du da regelmäßig 10k ungebremste Anfragen hinschickst.

https://api.wikimedia.org/wiki/Documentation/Getting_started/Rate_limits

Die Endpoints für DE z.B. https://de.wikipedia.org/w/api.php

Oh, das wusste ich nicht! Muss ich mir definitiv noch mal anschauen!

Joe User · Dec 4, 2022

Andreas2022 said:
Oh, das wusste ich nicht! Muss ich mir definitiv noch mal anschauen!

Den Staatsanwalt und das Gericht interessiert es herzlich wenig, ob Du "das wusstest" oder nicht, DoS ist und bleibt in DE und vielen anderen Staaten eine Straftat...

GwenDragon · Dec 10, 2022

@Andreas2022 Jede professionell gemachte Website hat logischerweise einen Schutz gegen Programme (sog. Bots) die zu schnell und zu oft Daten abgrasen. Und so einen hast du doch programmiert.
Und gegen solche Restriktionen hilft auch kein neue PHP curl-Bibliothek.

//EDIT:
Und Wikimedia verbietet laut https://commons.wikimedia.org/robots.txt so einigen speziell und auch allen!() User-Agents bestimmte Inhalte abzuholen.
Wer einen Bot baut, muss sowas wissen.

Andreas2022 · Dec 11, 2022

Naja, Wikipedia genehmigt ja ausdrücklich das Abgreifen von Daten von Ihrem Server, und ich denke wenn ich innerhalb der gestattete Limits bleibe, in diesem Fall angemeldet bei 5000 Aufrufe pro Stunde, ist alles in Ordnung.

Ich habe mir bei Wikimedia einen Account angelegt, um Zugangsdaten zu erhalten, in diesem Fall einen Personal API Token.
https://api.wikimedia.org/wiki/Documentation/Getting_started/Authentication#Personal_API_tokens

Als einfaches Beispiel ist folgender Code angegeben:

PHP:

# Get the Earth article from English Wikipedia 
curl -H "Authorization: Bearer YOUR_ACCESS_TOKEN" \
https://api.wikimedia.org/core/v1/wikipedia/en/page/Earth/bare

Wie muss man dies in php Curl übersetzen? Vielen Dank im voraus!

MadMakz · Dec 11, 2022

-H / --header <header> in PHP =

https://www.php.net/manual/en/function.curl-setopt.php

CURLOPT_HTTPHEADER An array of HTTP header fields to set, in the format array('Content-type: text/plain', 'Content-length: 100')

Code:

..
curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);
...

Andreas2022 · Dec 11, 2022

Super, vielen Dank!

Curl update: phpinfo zeigt immer noch alte Version an.

nexus

Well-Known Member

Andreas2022

New Member

GwenDragon

Registered User

GwenDragon

Registered User

ThomasChr

Active Member

MadMakz

Active Member

Andreas2022

New Member

Andreas2022

New Member

MadMakz

Active Member

Andreas2022

New Member

Joe User

Zentrum der Macht

GwenDragon

Registered User

Andreas2022

New Member

MadMakz

Active Member

Andreas2022

New Member

We value your privacy