Informationen zum Crawler „IT-Wurm“
Der IT-Wurm-Bot erfasst frei zugängliche Webinhalte und konzentriert sich dabei insbesondere auf das Deep Web und das Dark Web, in denen Informationen nur schwer zugänglich sind. Diese Daten fließen in konzeptionelle Überlegungen zu einer möglichen zukünftigen Suchmaschine ein.
Eine öffentlich verfügbare Suchmaschine wird derzeit nicht betrieben und auch nicht entwickelt.
Technische Informationen
- Version: 1.2
- Bot-Typ: Webcrawler (identifiziert sich selbstständig)
- Beachtung von robots.txt: Ja, nach aktuellem Stand
- Beachtung von Crawl-Delay: Ja, soweit technisch vorgesehen
- Feste IP-Adressen: Nein
- User-Agent: Mozilla/5.0 (compatible; IT-Wurm-Bot; +https://www.it-wurm.de)
- Eingesetzte Programmiersprachen: PHP, Rust, Java, Python
Hintergrundinformationen
Der IT-Wurm-Bot ist ein Crawler-System, dessen technische Basis ursprünglich von dem Unternehmen AMP entwickelt wurde.
Seit 2025 wird die Weiterentwicklung von einem Team unter der Leitung von Sam Mueller (Chefentwickler, Teamleiter) sowie von Marek Stapff (Datenschutz, Datensicherheit) fortgeführt.
Funktionsweise
Der IT-Wurm-Bot durchsucht das gesamte Internet – also das Clear Web, das Deep Web und das Dark Web –, um schwer zugängliche Inhalte zu erfassen und bestehende Einträge zu aktualisieren. Der Schwerpunkt liegt auf dem Deep Web und dem Dark Web.
Der Crawler überwindet keine Schutzmechanismen (zum Beispiel Passwortschutz) und greift ausschließlich auf frei zugängliche Inhalte zu.
Häufig gestellte Fragen (FAQ)
Wie häufig greift der Crawler auf eine Website zu?
Der IT-Wurm-Bot greift in der Regel maximal einmal täglich auf eine Domain zu und lädt bis zu fünf Unterseiten mit einer Standardverzögerung von etwa zwei Sekunden.
Diese Verzögerung kann in der robots.txt angepasst werden:
User-agent: IT-Wurm-Bot
Crawl-delay: 10
Wie kann der Zugriff des Crawlers gesteuert werden?
Der Zugriff des IT-Wurm-Bots kann über die robots.txt gesteuert werden.
Bestimmte Unterseiten ausschließen:
User-agent: IT-Wurm-Bot
Disallow: /unterseite1.html
Bestimmte Ordner ausschließen:
User-agent: IT-Wurm-Bot
Disallow: /wp-admin/
Gesamte Website ausschließen:
User-agent: IT-Wurm-Bot
Disallow: /
Eine allgemeine Einführung in das robots.txt-Protokoll finden Sie unter: robotstxt.org 🔗
Wie können einzelne Unterseiten von der Indexierung ausgeschlossen werden?
Über Robots-Meta-Tags im <head>-Bereich einer Seite können die Indexierung und die Verfolgung von Links gesteuert werden.
Seite von der Indexierung ausschließen:
<meta name="robots" content="noindex">
Seite von der Indexierung ausschließen und Links nicht verfolgen:
<meta name="robots" content="noindex, nofollow">
Ausblick: Wertschöpfung durch KI- und LLM-Daten
In Zukunft wird es von großer Bedeutung sein, Daten aus KI- bzw. LLM-Systemen (zum Beispiel Trainingsdaten und Benutzereingaben) gezielt zu extrahieren, aufzubereiten und für andere Projekte sowie für Forschung und neue Entwicklungen weiterzuverwenden. Wir arbeiten bereits heute an passenden Lösungsansätzen und Datenbanken.
Kontakt
Bei Fragen oder Hinweisen steht Ihnen das Team per E-Mail zur Verfügung.
Die bereitgestellten Informationen dienen der allgemeinen Orientierung und können sich im Zuge der Weiterentwicklung ändern.
🔗 = Externe und unabhängige Angebote.