Hauptnavigation

PG 343:   WebBots - Intelligente Internet Softbots

PG-Zeitraum:   Sommersemester 1999 und Wintersemester 1999/2000
PG-Umfang:   jeweils 8 SWS

PG-Veranstalter

PG-Aufgabe

Elektronische Medien und speziell das World Wide Web (WWW) gewinnen an immer stärkerer Bedeutung sowohl für gewerbliche Anwendungen als auch für unser tägliches Leben. Mit dem neuen Angebot von Informationen geht aber auch eine steigende Überlastung einher. Nur wenige der angebotenen Informationen sind für uns interessant und diese gehen vielfach in der Informationsflut unter. Deshalb brauchen wir Software-Tools, die uns beim Herausfiltern von für uns relevanten Informationen unterstützen.

Das Information Retrieval stellt hierzu viele Basistechniken zur Verfügung. Ein Großteil der Informationen auf dem WWW sind als Textdokumente gespeichert. Mit Methoden des Text Retrievals kann in Suchmaschinen wie Lycos, Altavista oder Excite in Dokumenten nach Schlüsselwörtern gesucht werden. Obwohl mit diesen Suchmaschinen bereits einige Erfolge bei der Informationssuche erzielt werden können, haben sie einige grundlegende Probleme.

  • Kein WWW-Katalog ist vollständig:  Durch die hohe Dynamik des WWW kommen ständig neue Dokumente und Informationsquellen hinzu, während alte wegfallen.
  • Es wird nur nach Stichwörtern gesucht, nicht nach Inhalten:  Eine Suchmaschine unterscheidet nicht nach dem Typ der Seite (z. B. Personal Home Page oder veraltete Seite über eine Konferenz von vor 3 Jahren), auf der die Schlüsselwörter vorkommen.

Heutzutage werden diese Probleme meist noch manuell behandelt. Angenommen wir suchen die Personal Home Page einer Person. Zuerst probiert man mehrere Suchmaschinen durch, bis man den Namen der Person findet. Dann geht man manuell die Liste der Treffer durch, bis man endlich eine vielversprechende Seite findet. Oftmals ist diese Seite dann noch nicht die Personal Home Page. Aber vielleicht ist es eine Seite über ein Projekt, an welchem die Person arbeitet. Von dort gelangen wir dann endlich über einen Hyperlink zur gewünschten Home Page.

Wenn es mit der Suche nicht so reibungslos klappt, werden wir vielleicht noch andere Strategien anwenden. Zum Beispiel können wir mit einem der EMail-Adreßbücher die EMail-Adresse der Persom herausfinden. An der EMail-Adresse können wir dann den Arbeitgeber bzw. Internet-Provider der Person ablesen, was uns dann wahrscheinlich zu ihrer Home Page führt. Unzählige andere Strategien, welche die vielen auf dem WWW verfügbaren Informationsdienste benutzen, sind ebenfalls denkbar.

In der hier vorgestellten PG soll diese Art von Informationssuche automatisiert werden. Hierbei soll ein agentenbasierter Ansatz mittels Softbots verwirklicht werden.

Jeder Softbot ist ein Experte für bestimmte Informationsobjekte, nach denen er auf Befehl des Benutzers sucht. Dabei sollen Softbots komplexe Strategien anwenden können, wie sie sonst auch von einem Menschen benutzt würden. Mögliche Informationsobjekte sind z. B.

  • Personal Home Pages
  • Projekte
  • Institutionen
  • Produkte
  • Nachrichten
  • Publikationen

Agenten können sich auch gegenseitig benutzen. Um z. B. eine Publikation zu finden, kann man zuerst die Personal Home Page des Authors finden lassen. Mit Methoden der Textklassifikation erkennt ein Agent, wann er die gewünschte Seite gefunden hat.

Zur Entwicklung solcher Agenten werden folgende Techniken und Methoden benötigt werden:

  • Textklassifikation
  • Maschinelles Lernen
  • Planen
  • Wissensrepräsentation
  • HTML/HTTP/Java-Programmierung

Die fertigen Agenten sollen experimentell evaluiert werden und evtl. auf dem WWW der Allgemeinheit zur Verfügung gestellt werden.

PG-Teilnahmevoraussetzungen

Minimalziel

  • Entwurf und Implementierung einer Agenten-Shell (inklusive Planer und Textklassifikator)
  • Implementierung eines funktionsfähigen Agenten

Literatur:

1
Michael J. Wooldridge und Nicholas R. Jennings. Intelligent Agents: Theory and Practice. Knowledge Engineering Review, 10(2):115-152, 1995.
2
Nicholas R. Jennings und Michael J. Wooldridge. Software Agents. IEE Review, 42(1):17-21, 1996.
3
Oren Etzioni und Daniel Weld. A Softbot-Based Interface to the Internet. Communications of the ACM (CACM), 37(7):72-76, 1994.
4
Thorsten Joachims, Text Categorization with Support Vector Machines: Learning with Many Relevant Features. Universität Dortmund, LS VIII-Report, Nr. 23, 1997.
5
Jonathan Shakes, Marc Langheinrich und Oren Etzioni. Dynamic Reference Sifting: A Case Study in the Homepage Domain. In Proceedings of the Sixth International World Wide Web Conference (WWW6), Seiten 189-200, 1997.
6
Jude Shavlik und Tina Eliassi-Rad. Intelligent Agents for Web-based Tasks: An Advice-Taking Approach. In Learning for Text Categorization, Papers from the AAAI-98 Workshop, Technical Report WS-98-05, Seiten 63-70, Menlo Park, CA, USA, 1998. AAAI Press.
7
José Luis Ambite und Craig A. Knoblock. Planning by Rewritting: Efficiently Generating High-Quality Plans. In Proceedings of the Fourteenth National Conference on Artificial Intelligence (AAAI-97), Providence, Rhode Island, 1997.
8
Naveen Ashish, Craig A. Knoblock und Alon Levy. Information Gathering Plans With Sensing Actions. In Proceedings of the Fourth European Conference on Planing (ECP-97), Toulouse, France, 1997.
9
C.A. Knoblock, S. Minton, J.L. Ambite, N. Ashish, P. Jay Modi, I. Muslea, A.G. Philpot und S. Tejada. Modeling Web Sources for Information Integration. In Proceedings of the Fifteenth National Conference on Artificial Intelligence (AAAI-98), Seiten 211-218, Madison, WI, USA, 1998.
10
T. Joachims, D. Freitag und T. Mitchell, WebWatcher: A Tour Guide for the World Wide Web. Proceedings of International Joint Conference on Artificial Intelligence (IJCAI), 1997.
11
T. Joachims und D. Mlademic, Browsing-Assistenten, Tour Guides und adaptive WWW-Server. Künstliche Intelligenz, Vol. 4, 1998.

Weitere Informationsquellen


Letzte Änderung: Thorsten Joachims, Freitag, 20.11.1998, 18:05 Uhr
Letzte Änderung: Ralf Klinkenberg, Dienstag, 15.06.1999, 14:00 Uhr