Informationen zum to.science Crawler
to.science ist der Name des Crawlers des gleichnamigen Content Repositories. to.science steht für Toolbox Open Science
und ist ein Produkt des hbz zur Archivierung digitaler Publikationen. Neben Artikeln, Monographien, Zeitschriften etc. werden über
das Webcrawling auch regelmäßig Webseiten eingesammelt und archiviert. Hintergrund des Webcrawling ist die reine Archivierung der Seite.
Die gesammelten Daten dienen nicht als Grundlage für KI oder LLMs.
Das Webcrawling geschieht im Auftrag bzw. in Zusammenarbeit mit den Landesbibliotheken des Landes NRW und dem Landesbibliothekszentrum Rheinland-Pfalz.
User Agent
Um Webmastern die Möglichkeit zu geben, Datenverkehr zu identifizieren, der von unserem Crawler verursacht wird, verwenden wir folgenden User Agent:
to.science (https://toscience.hbz-nrw.de/crawler;mailto:toscience@hbz-nrw.de)
Verhalten
Wir sind gestrebt, in einen Tempo zu crawlen, das den regulären Betrieb einer Webseite nicht beinträchtigt. Es sollte nicht mehr als ein Aufruf pro Sekunde
erfolgen und eine eventuell vorhandene robots.txt-Datei wird berücksichtigt.
IP Bereiche
Das Crawling erfolgt aus folgendem Adressbereich 193.30.112.0/24. Der IP Bereich ist auch als JSON abrufbar unter toscience.json.
Kontakt
Bei Fragen oder Anregungen schreiben Sie bitte an toscience@hbz-nrw.de.