dataanalysis.classifiers
Class URLClassifier

java.lang.Object
  |
  +--dataanalysis.databases.DatabaseElement
        |
        +--dataanalysis.classifiers.Classifier
              |
              +--dataanalysis.classifiers.URLClassifier

public class URLClassifier
extends Classifier

Dieser Klassifikator ist in der Lage, URL's anhand von Wortvorkommen zu klassifizieren. Alle Worte, die in den Beispielen vorkommen, werden auf Vorkommen in der URL der uebergebenen NetEntity ueberprueft. Sollte mindestens eines der Worte vorkommen, traegt der Klassifikator 1.0 ein, ansonsten 0.0. Die Gross-/Kleinschreibung wird nicht beachtet.

Version:
1.1 (25.10.1999)
Author:
Andre Masloch
See Also:
Serialized Form

Field Summary
protected  java.lang.String negativeKeywords
          In diesem String sind alle Worte abgelegt, die in den negativen Beispielen vorhanden waren.
protected  java.lang.String positiveKeywords
          In diesem String sind alle Worte abgelegt, die in den positiven Beispielen vorhanden waren.
protected  StringMatcher smNegative
          Das StringMatcher-Objekt fuer die negativen Worte.
protected  StringMatcher smPositive
          Das StringMatcher-Objekt fuer die positiven Worte.
 
Fields inherited from class dataanalysis.classifiers.Classifier
documents, moreDictionaries, moreDictionariesNames, myDatabase, theVectorizer, theVectorizerName, THRESHOLD, untrainedExamples, wordDictionary, wordDictionaryName
 
Fields inherited from class dataanalysis.databases.DatabaseElement
elementname
 
Constructor Summary
URLClassifier()
           
URLClassifier(ClassifierDatabase theDB)
           
 
Method Summary
 java.lang.String checkVariables()
          Diese Methode wurde ueberschrieben, weil dieser Klassifikator keine Dictionaries oder Vectorizer benoetigt.
 NetEntity classify(NetEntity document)
          Klassifiziert die uebergebene NetEntity.
 java.lang.String getNegativeKeywords()
          Liefert eine Kopie der positiven Schluesselworte zurueck.
 java.lang.String getPositiveKeywords()
          Liefert eine Kopie der positiven Schluesselworte zurueck.
 int train()
          startet das Training des Klassifikators auf den vorhandenen Daten und den neu durch "addExample" hinzugef?gten Beispielen.
 
Methods inherited from class dataanalysis.classifiers.Classifier
addExample, addExample, convert, getThreshold, setDatabase, setThreshold, toString
 
Methods inherited from class dataanalysis.databases.DatabaseElement
getElementname, logMessage, setElementname
 
Methods inherited from class java.lang.Object
, clone, equals, finalize, getClass, hashCode, notify, notifyAll, registerNatives, wait, wait, wait
 

Field Detail

positiveKeywords

protected java.lang.String positiveKeywords
In diesem String sind alle Worte abgelegt, die in den positiven Beispielen vorhanden waren. Doppelte Vorkommen werden nicht beruecksichtigt!

negativeKeywords

protected java.lang.String negativeKeywords
In diesem String sind alle Worte abgelegt, die in den negativen Beispielen vorhanden waren. Doppelte Vorkommen werden nicht beruecksichtigt!

smPositive

protected transient StringMatcher smPositive
Das StringMatcher-Objekt fuer die positiven Worte.

smNegative

protected transient StringMatcher smNegative
Das StringMatcher-Objekt fuer die negativen Worte.
Constructor Detail

URLClassifier

public URLClassifier()

URLClassifier

public URLClassifier(ClassifierDatabase theDB)
Method Detail

train

public int train()
startet das Training des Klassifikators auf den vorhandenen Daten und den neu durch "addExample" hinzugef?gten Beispielen.
Returns:
Anzahl der Worte in allen Dokumenten.
Overrides:
train in class Classifier

classify

public NetEntity classify(NetEntity document)
Klassifiziert die uebergebene NetEntity. Sollte eines der Woerter in der URL(!) auftauchen, dass in den negativen Beispielen vorkam, so wird die NetEntity mit 0.0 klassifiziert. Sollte ansonsten eines der Woerter auftauchen, dass in den positiven Beispielen vorkam, so wird die NetEntity mit 1.0 klassifiziert. Ist keines der Woerter aus allen Beispielen vorhanden, so wird ebenfalls 0.0 eingetragen.
Parameters:
document - steht fuer die NetEntity, die der Klassifizierer klassifizieren soll.
Returns:
Ausgabe des klassifizierten Dokuments.
Overrides:
classify in class Classifier

checkVariables

public java.lang.String checkVariables()
Diese Methode wurde ueberschrieben, weil dieser Klassifikator keine Dictionaries oder Vectorizer benoetigt.
Overrides:
checkVariables in class Classifier

getPositiveKeywords

public java.lang.String getPositiveKeywords()
Liefert eine Kopie der positiven Schluesselworte zurueck.
Since:
1.1

getNegativeKeywords

public java.lang.String getNegativeKeywords()
Liefert eine Kopie der positiven Schluesselworte zurueck.
Since:
1.1