|
||||||||||
| PREV CLASS NEXT CLASS | FRAMES NO FRAMES | |||||||||
| SUMMARY: INNER | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD | |||||||||
java.lang.Object
|
+--dataanalysis.databases.DatabaseElement
|
+--dataanalysis.classifiers.Classifier
|
+--dataanalysis.classifiers.BayesClassifier
Naiver Bayes'scher Klassifikator
Der Klassifikator basiert auf einer Modellierung von Text mit
wahrscheinlichkeitstheoretischen Methoden. Es wird davon
ausgegangen, da? Texte von verschiedenen
Wahrscheinlichkeitsverteilungen erzeugt werden. Diese Verteilungen
sind sehr komplex und lassen sich direkt nicht handhaben. Deshalb
werden vereinfachende Annahmen gemacht, die es erm?glichen, die
Verteilungen auf einem Computer darzustellen und aus Trainingsdaten
zu sch?tzen. Die vereinfachenden Annahmen sollten so gew?hlt
werden, dass die Komplexit?t gerade genug reduziert wird, um das
Problem handhabbar zu machen, aber dennoch die f?r die
Klassifikationsaufgabe relevanten Eigenschaften der Verteilung
erhalten bleiben. (Quelle: Diplomarbeit "Einsatz eines
intelligenten, lernenden Agenten f?r das World Wide Web" von
Thorsten Joachims)
Classifier, Serialized Form| Field Summary | |
protected double |
aPrioriNegative
Dieser Wert speichert die a-Priori-Wahrscheinlichkeit, dass ein Dokument d zu den negativen Beispielen gehoert. |
protected double |
aPrioriPositive
Dieser Wert speichert die a-Priori-Wahrscheinlichkeit, dass ein Dokument d zu den positiven Beispielen gehoert. |
protected int |
documentCount
Dieser Wert speichert die Gesamtzahl der Dokumente, mit denen trainiert wurde. |
protected double |
featureCount
Dieser Wert speichert die Gesamtzahl der Features (Anzahl der Worte im Feature-W?rterbuch). |
protected java.util.TreeMap |
negativeDocuments
in dieser TreeMap werden alle negativen Dokumente abgespeichert. |
protected double[] |
negativeTF
In diesem Feld werden die ueber alle negativen Beispiele summierten TF-Werte aller Features abgespeichert. Dieses Feld wird neu erzeugt, wenn die Methode train()
aufgerufen wird. |
protected double |
negativeTFSum
Dieser Wert speichert die Summe der TF-Werte aller Features, die in negativen Beispielen vorhanden sind. |
protected java.util.TreeMap |
positiveDocuments
in dieser TreeMap werden alle positiven Dokumente abgespeichert. |
protected double[] |
positiveTF
In diesem Feld werden die ueber alle positiven Beispiele summierten TF-Werte aller Features abgespeichert. Dieses Feld wird neu erzeugt, wenn die Methode train()
aufgerufen wird. |
protected double |
positiveTFSum
Dieser Wert speichert die Summe der TF-Werte aller Features, die in positiven Beispielen vorhanden sind. |
| Fields inherited from class dataanalysis.classifiers.Classifier |
documents,
moreDictionaries,
moreDictionariesNames,
myDatabase,
theVectorizer,
theVectorizerName,
THRESHOLD,
untrainedExamples,
wordDictionary,
wordDictionaryName |
| Fields inherited from class dataanalysis.databases.DatabaseElement |
elementname |
| Constructor Summary | |
BayesClassifier()
Standardkonstruktor |
|
BayesClassifier(ClassifierDatabase theDB)
|
|
| Method Summary | |
NetEntity |
classify(NetEntity document)
Das uebergebene Dokument wird unter zu Hilfenahme des Vektorisieres, des Lexikons und der Trainingsmenge klassifiziert und eingestuft. |
java.lang.String |
toString()
|
int |
train()
startet das Training des Klassifikators auf den vorhandenen Daten und den neu durch "addExample" hinzugef?gten Beispielen. |
| Methods inherited from class dataanalysis.classifiers.Classifier |
addExample,
addExample,
checkVariables,
convert,
getThreshold,
setDatabase,
setThreshold |
| Methods inherited from class dataanalysis.databases.DatabaseElement |
getElementname,
logMessage,
setElementname |
| Methods inherited from class java.lang.Object |
|
| Field Detail |
protected java.util.TreeMap positiveDocuments
Integer verwendet. Die
Dokumentvektoren sind die Werte.protected java.util.TreeMap negativeDocuments
Integer verwendet. Die
Dokumentvektoren sind die Werte.protected double[] positiveTF
train()
aufgerufen wird.protected double[] negativeTF
train()
aufgerufen wird.protected double positiveTFSum
protected double negativeTFSum
protected double aPrioriPositive
d zu den positiven Beispielen gehoert.protected double aPrioriNegative
d zu den negativen Beispielen gehoert.protected int documentCount
protected double featureCount
| Constructor Detail |
public BayesClassifier()
public BayesClassifier(ClassifierDatabase theDB)
| Method Detail |
public int train()
Classifier.THRESHOLD ist, werden als negativ angesehen,
ansonsten positiv.public NetEntity classify(NetEntity document)
DatabaseElement.getElementname()
zur?ckgibt. Sollte keine Klassifikation m?glich sein, wird kein Wert
eingetragen! Dies ist z.B. der Fall, wenn die Exception
NetResultReloadFailedException auftritt, der
Klassifizierer seinen Vektorisierer nicht in der Datenbank findet oder
bisher keine Beispiele mit
Classifier.addExample(NetEntity,double)
hinzugefuegt wurden.document - steht fuer den NetEntity,
den der Klassifizierer klassifizieren soll.Vectorizer,
Dictionarypublic java.lang.String toString()
|
||||||||||
| PREV CLASS NEXT CLASS | FRAMES NO FRAMES | |||||||||
| SUMMARY: INNER | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD | |||||||||