Informationen zum to.science Crawler

to.science ist der Name des Crawlers des gleichnamigen Content Repositories. to.science steht für Toolbox Open Science und ist ein Produkt des hbz zur Archivierung digitaler Publikationen. Neben Artikeln, Monographien, Zeitschriften etc. werden über das Webcrawling auch regelmäßig Webseiten eingesammelt und archiviert. Hintergrund des Webcrawling ist die reine Archivierung der Seite. Die gesammelten Daten dienen nicht als Grundlage für KI oder LLMs.

Das Webcrawling geschieht im Auftrag bzw. in Zusammenarbeit mit den Landesbibliotheken des Landes NRW und dem Landesbibliothekszentrum Rheinland-Pfalz.

User Agent

Um Webmastern die Möglichkeit zu geben, Datenverkehr zu identifizieren, der von unserem Crawler verursacht wird, verwenden wir folgenden User Agent:

to.science (https://toscience.hbz-nrw.de/crawler;mailto:toscience@hbz-nrw.de)

Verhalten

Wir sind gestrebt, in einen Tempo zu crawlen, das den regulären Betrieb einer Webseite nicht beinträchtigt. Es sollte nicht mehr als ein Aufruf pro Sekunde erfolgen und eine eventuell vorhandene robots.txt-Datei wird berücksichtigt.

IP Bereiche

Das Crawling erfolgt aus folgendem Adressbereich 193.30.112.0/24. Der IP Bereich ist auch als JSON abrufbar unter toscience.json.

Kontakt

Bei Fragen oder Anregungen schreiben Sie bitte an toscience@hbz-nrw.de.