|
||||||||||
| PREV CLASS NEXT CLASS | FRAMES NO FRAMES | |||||||||
| SUMMARY: INNER | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD | |||||||||
java.lang.Object
|
+--dataanalysis.databases.DatabaseElement
|
+--dataanalysis.classifiers.Classifier
|
+--dataanalysis.classifiers.RocchioClassifier
Rocchio-Algorithmus
Der Rocchio-Algorithmus wurde als Methode zum Relevance Feedback im Rahmen des Informations
-Retrieval-Systems SMART entwickelt. Der Algorithmus basiert auf dem Vektorraum-Retrievel-Modell.
In diesem Modell werden Dokumente ebenso wie Anfragen als Wortvektoren repr?sentiert.
Weiterhin wird ein Abstandsmass definiert, welches die semantische ?hnlichkeit dieser Vektoren
messen soll. (Quelle: Diplomarbeit "Einsatz eines intelligenten, lernenden Agenten f?r das World
Wide Web" von Thorsten Joachims)
Classifier, Serialized Form| Field Summary | |
protected double |
countNEGd
speichert die Anzahl der negativen Dokumente |
protected double |
countPOSd
speichert die Anzahl der positiven Dokumente |
Documentvector |
dfVector
speichert die Document Frequency eines jeden Wortes aus dem Feature-Woerterbuch, d.h. |
protected int |
documentCounter
speichert die Anzahl aller klassifizierten Dokumente |
protected java.util.TreeMap |
idfMap
hier alle nicht aehnlichen Dokumente abgelegt |
protected Documentvector |
mVector
hier werden die Elemente des M-Vektors fuer die Aehnlichkeitsberechnung abgelegt |
protected java.util.TreeMap |
negDoc
speichert die negativen Dokumente in einer TreeMap |
protected java.util.TreeMap |
posDoc
speichert die positiven Dokumente in einer TreeMap |
protected java.util.TreeMap |
tfidfNEGDoc
speichert die TF-IDF-Gewichtung aller negativen Dokumente ab |
protected java.util.TreeMap |
tfidfPOSDoc
speichert die TF-IDF-Gewichtung aller positiven Dokumente ab |
protected java.util.TreeMap |
tfMap
hier werden alle aehnlichen Dokumente abgelegt |
| Fields inherited from class dataanalysis.classifiers.Classifier |
documents,
moreDictionaries,
moreDictionariesNames,
myDatabase,
theVectorizer,
theVectorizerName,
THRESHOLD,
untrainedExamples,
wordDictionary,
wordDictionaryName |
| Fields inherited from class dataanalysis.databases.DatabaseElement |
elementname |
| Constructor Summary | |
RocchioClassifier()
>>>>> KONSTRUKTOR << <="<" />D> | |
RocchioClassifier(ClassifierDatabase classiBase)
>>>>> erweiteter KONSTRUKTOR mit Datenbankuebergabe << <="<" />D> | |
| Method Summary | |
NetEntity |
classify(NetEntity document)
Das uebergebene Dokument wird unter zu Hilfenahme des Vektorisieres, des Lexikons und der Trainingsmenge klassifiziert und eingestuft. |
int |
setDFVector()
Ermittelt die Haeufigkeit mit der die verschiedenen Worte in den Trainingsbeispielen vorkommen. |
Documentvector |
tf2TFIDF(Documentvector docVec)
Fuer die TF-IDF-Gewichtung muss der uebergebene Vektor der in der TF-Form vorliegt in TF-IDF-Form konvertiert werden. |
int |
train()
startet das Training des Klassifikators auf den vorhandenen Daten und den neu durch "addExample" hinzugef?gten Beispielen. |
| Methods inherited from class dataanalysis.classifiers.Classifier |
addExample,
addExample,
checkVariables,
convert,
getThreshold,
setDatabase,
setThreshold,
toString |
| Methods inherited from class dataanalysis.databases.DatabaseElement |
getElementname,
logMessage,
setElementname |
| Methods inherited from class java.lang.Object |
|
| Field Detail |
protected double countPOSd
protected double countNEGd
protected int documentCounter
protected java.util.TreeMap posDoc
protected java.util.TreeMap negDoc
protected java.util.TreeMap tfidfPOSDoc
protected java.util.TreeMap tfidfNEGDoc
protected Documentvector mVector
public transient Documentvector dfVector
protected java.util.TreeMap tfMap
protected java.util.TreeMap idfMap
| Constructor Detail |
public RocchioClassifier()
public RocchioClassifier(ClassifierDatabase classiBase)
| Method Detail |
public int setDFVector()
public Documentvector tf2TFIDF(Documentvector docVec)
docVec - der TF-Vektorpublic int train()
public NetEntity classify(NetEntity document)
document - steht fuer den Text, den der Klassifizierer klassifizieren soll.Vectorizer,
Dictionary
|
||||||||||
| PREV CLASS NEXT CLASS | FRAMES NO FRAMES | |||||||||
| SUMMARY: INNER | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD | |||||||||