dataanalysis.classifiers
Class LinkPageClassifier

java.lang.Object
  |
  +--dataanalysis.databases.DatabaseElement
        |
        +--dataanalysis.classifiers.Classifier
              |
              +--dataanalysis.classifiers.LinkPageClassifier

public class LinkPageClassifier
extends Classifier

Dieser Klassifikator ist in der Lage, HTML-Seiten anhand der in der Seite vorkommenden Links zu klassifizieren. Sollte die Mehrheit der Links zu denen im Training angegebenen Konzepten gehoeren, so wird die Seite als positiv eingestuft.

Version:
1.1 (12.11.1999)
Author:
Andre Masloch
See Also:
Serialized Form

Field Summary
protected  boolean getResults
          Diese Variable legt fest, ob nur die Links, oder der Inhalt der Links klassifiziert werden soll.
protected  java.util.HashSet negativeClassifiers
          In diesem HashSet sind alle Klassifizierernamen abgelegt, die negativ bewertet werden.
protected  java.util.HashSet positiveClassifiers
          In diesem HashSet sind alle Klassifizierernamen abgelegt, die positiv bewertet werden.
 
Fields inherited from class dataanalysis.classifiers.Classifier
documents, moreDictionaries, moreDictionariesNames, myDatabase, theVectorizer, theVectorizerName, THRESHOLD, untrainedExamples, wordDictionary, wordDictionaryName
 
Fields inherited from class dataanalysis.databases.DatabaseElement
elementname
 
Constructor Summary
LinkPageClassifier()
           
LinkPageClassifier(ClassifierDatabase theDB)
           
 
Method Summary
 java.lang.String checkVariables()
          Diese Methode wurde ueberschrieben, weil dieser Klassifikator keine Dictionaries oder Vectorizer benoetigt.
 NetEntity classify(NetEntity document)
          Klassifiziert die uebergebene NetEntity.
protected  double classifyLink(Link link, java.util.Iterator classifiers)
          Diese Methode klassifiziert einen Link nach allen Klassifizierern.
 boolean getGetResults()
          Get the value of getResults.
 void setGetResults(boolean v)
          Set the value of getResults.
 java.lang.String toString()
           
 int train()
          Startet das Training des Klassifizierers.
 
Methods inherited from class dataanalysis.classifiers.Classifier
addExample, addExample, convert, getThreshold, setDatabase, setThreshold
 
Methods inherited from class dataanalysis.databases.DatabaseElement
getElementname, logMessage, setElementname
 
Methods inherited from class java.lang.Object
, clone, equals, finalize, getClass, hashCode, notify, notifyAll, registerNatives, wait, wait, wait
 

Field Detail

positiveClassifiers

protected java.util.HashSet positiveClassifiers
In diesem HashSet sind alle Klassifizierernamen abgelegt, die positiv bewertet werden.

negativeClassifiers

protected java.util.HashSet negativeClassifiers
In diesem HashSet sind alle Klassifizierernamen abgelegt, die negativ bewertet werden.

getResults

protected boolean getResults
Diese Variable legt fest, ob nur die Links, oder der Inhalt der Links klassifiziert werden soll. Standardwert ist false.
Constructor Detail

LinkPageClassifier

public LinkPageClassifier()

LinkPageClassifier

public LinkPageClassifier(ClassifierDatabase theDB)
Method Detail

train

public int train()
Startet das Training des Klassifizierers. Die uebergebenen Beispiele werden anhand des Classifier.THRESHOLD's als positive oder negative Klassifizierer eingestuft. Sollte ein Klassifizierer nicht in der Datenbank vorhanden sein, so wird eine log-Meldung der Stufe LogService.WARNING erzeugt.
Returns:
Anzahl der benutzten Klassifizierer, die auch in der Datenbank gefunden wurden.
Overrides:
train in class Classifier

classify

public NetEntity classify(NetEntity document)
Klassifiziert die uebergebene NetEntity. Voraussetzung fuer eine positive Klassifikation ist, dass die uebergebene NetEntity ein HTMLTextNetResult oder ein davon erbendes Objekt ist!
Der eingetragene Wert entspricht dem folgenden Quotient:
Fuer jeden Link:
(positive Ergebnisse von pos. Klassifikatoren)/(alle positive Ergebnisse)
Ist der klassifizierte Wert groesser als der Classifier.THRESHOLD des Klassifizierers, so wird das Ergebnis mit 1 bewertert, ansonsten mit 0.
Fuer das Gesamtergebnis wird Anzahl der positiven Links durch die Gesamtanzahl der Links dividiert.
Parameters:
document - steht fuer die NetEntity, die der Klassifizierer klassifizieren soll.
Returns:
Ausgabe des klassifizierten Dokuments.
Overrides:
classify in class Classifier






checkVariables

public java.lang.String checkVariables()
Diese Methode wurde ueberschrieben, weil dieser Klassifikator keine Dictionaries oder Vectorizer benoetigt.
Overrides:
checkVariables in class Classifier

classifyLink

protected double classifyLink(Link link,
                              java.util.Iterator classifiers)
Diese Methode klassifiziert einen Link nach allen Klassifizierern.
Parameters:
link - der Link, der klassifiziert werden soll.
classifiers - der Iterator mit den Klassifizierernamen.
Returns:
die Anzahl der positiven Klassifikationen.

getGetResults

public boolean getGetResults()
Get the value of getResults.
Returns:
Value of getResults.

setGetResults

public void setGetResults(boolean v)
Set the value of getResults.
Parameters:
v - Value to assign to getResults.

toString

public java.lang.String toString()
Overrides:
toString in class Classifier