|
||||||||||
| PREV CLASS NEXT CLASS | FRAMES NO FRAMES | |||||||||
| SUMMARY: INNER | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD | |||||||||
java.lang.Object
|
+--dataanalysis.databases.DatabaseElement
|
+--dataanalysis.docvectors.Vectorizer
transformiert die textuelle Darstellung eines Dokuments in einen vektoriellen Wert. Die Classifier k?nnen die Vektorisierer f?r die Klassifizierung von Texten einsetzen.
Classifier, Serialized Form| Field Summary | |
protected java.lang.String |
delimiters
der String, der die Trennzeichen des Vektorisierers enthaelt. Standardwert ist: "<>&()[]#{}'\"`+*-/.,;:!?=\\\t\n\r\f $_^@1234567890-"
|
private Documentvector |
docuVector
dient nur fuer die String-Ausgabe des Dokumentvektors |
private Dictionary |
negativDictionaries
beinhaltet das Negativ-Woerterbuch (Stop-Liste) |
java.lang.String |
negativDictionariesName
|
Dictionary[] |
synDict
nimmt die verschiedenen Synonym-W\366rterb\374cher auf. |
java.lang.String |
synDictName
|
private Dictionary |
synonymDictionaries
beinhaltet das Synonym-Woerterbuch |
java.lang.String |
synonymDictionariesName
beinhaltet den Namen des Synomym-Woerterbuchs |
private Dictionary |
vectorDictionaries
beinhalted die Feature-Wort-Liste(n) |
java.lang.String |
vectorDictionariesName
beinhaltet den Namen des Feature-Woerterbuchs |
DictionaryDatabase |
vectorizerDicDatabase
Diese Datenbank benutzt der Vektorizer um Woerterbuecher abzuspeichern. |
| Fields inherited from class dataanalysis.databases.DatabaseElement |
elementname |
| Constructor Summary | |
Vectorizer()
|
|
Vectorizer(DictionaryDatabase vectorDicDB)
uebergibt die vorhandene Datenbank vectorDicDB an die Vectorisierer-Datenbank
vectorizerDatabase. |
|
Vectorizer(int dimension)
legt die initiale Dimension des Vektors, der bei der Vektorisierung erzeugt wird, fest. |
|
| Method Summary | |
void |
addNegativeDictionary(Dictionary the_dictionary)
Deprecated. |
void |
addSynonymDictionary(Dictionary the_dictionary)
Deprecated. |
java.lang.String |
getDelimiters()
Liefert den Wert von delimiters. |
java.util.TreeMap |
getList(Documentvector listVector)
erzeugt aus dem Dokument-Vector eine Liste (TreeMap). |
java.util.TreeMap |
getMap(Dictionary dicMap)
wandelt ein Dictionary in eine TreeMap um. |
void |
setDatabase(DictionaryDatabase databaseVectorizer)
setzt die Datenbank databaseVectorizer, ueber die der Klassifizierer auf Dictionaries
und Vectorizer zugreift. |
void |
setDelimiters(java.lang.String v)
Setzt den Wert von delimiters. |
void |
setNegativDictionariesName(java.lang.String nDicName)
legt den Namen nDicName fuer das zu benutzende Negativ-Woerterbuch fest. |
void |
setSynonymDictionariesName(java.lang.String sDicName)
legt den Namen sDicName fuer das zu benutzende Synonym-Woerterbuch fest. |
void |
setVectorDictionariesName(java.lang.String vDicName)
legt den Namen vDicName fuer das zu benutzende Feature-Woerterbuch fest. |
void |
setVectorDictionary(Dictionary the_dictionary)
Deprecated. |
java.lang.String |
toString()
wandelt alle wichtigen Daten in einen String um. |
Documentvector |
vectorize(java.lang.String document,
boolean autoAddWord)
transformiert ein ?bergebenes Dokument document in einen Vektor. |
| Methods inherited from class dataanalysis.databases.DatabaseElement |
getElementname,
logMessage,
setElementname |
| Methods inherited from class java.lang.Object |
|
| Field Detail |
private transient Dictionary vectorDictionaries
private Documentvector docuVector
public java.lang.String vectorDictionariesName
private transient Dictionary synonymDictionaries
public java.lang.String synonymDictionariesName
private transient Dictionary negativDictionaries
public DictionaryDatabase vectorizerDicDatabase
public java.lang.String negativDictionariesName
public transient Dictionary[] synDict
public java.lang.String synDictName
protected java.lang.String delimiters
"<>&()[]#{}'\"`+*-/.,;:!?=\\\t\n\r\f $_^@1234567890-"
| Constructor Detail |
public Vectorizer()
public Vectorizer(int dimension)
dimension - steht f?r die Dimension des Dokumentvektors.public Vectorizer(DictionaryDatabase vectorDicDB)
vectorDicDB an die Vectorisierer-Datenbank
vectorizerDatabase.| Method Detail |
public java.lang.String getDelimiters()
delimiters.delimiters.public void setDelimiters(java.lang.String v)
delimiters.v - Der Wert, der delimiters zugewiesen werden soll.
public Documentvector vectorize(java.lang.String document,
boolean autoAddWord)
document in einen Vektor.
document - steht f?r das zu vektorisierende Dokument.Classifierpublic void setDatabase(DictionaryDatabase databaseVectorizer)
databaseVectorizer, ueber die der Klassifizierer auf Dictionaries
und Vectorizer zugreift.public void setVectorDictionariesName(java.lang.String vDicName)
vDicName fuer das zu benutzende Feature-Woerterbuch fest.vDicName - steht fuer den Namen des Woerterbuchs.public void setNegativDictionariesName(java.lang.String nDicName)
nDicName fuer das zu benutzende Negativ-Woerterbuch fest.nDicName - steht fuer den Namen des Woerterbuchs.public void setSynonymDictionariesName(java.lang.String sDicName)
sDicName fuer das zu benutzende Synonym-Woerterbuch fest.sDicName - steht fuer den Namen des Woerterbuchs.public void addSynonymDictionary(Dictionary the_dictionary)
the_dictionary zum Vektorisierer hinzu.
Der Vektorisierer geht alle W?rterb?cher durch und ersetzt W?rter durch verwandte W?rter.
Seit der Version 1.10 wird diese Methode nicht mehr benutzt, da die Woerterbuecher nun gesetzt werden koennen.the_dictionary - stellt ein neues W?rterbuch dar, das zum Vektorisierer hinzugef?gt wird.public void addNegativeDictionary(Dictionary the_dictionary)
the_dictionary zum Vektorisierer hinzu.
Alle W?rter im Text, die im W?rterbuch auftauchen werden nicht ber?cksichtigt.
Seit der Version 1.10 wird diese Methode nicht mehr benoetigt, da die Woerterbuecher nun direkt
gesetzt werden koennen.the_dictionary - steht f?r ein "negatives" W?rterbuch, das zum Vektorisierer hinzugef?gt wird.public void setVectorDictionary(Dictionary the_dictionary)
the_dictionary, in dem alle Schl?sselw?rter des Vektors auftauchen.
Diese Methode wird seit der Version 1.10 nicht mehr benoetigt, da die Woerterbuecher nun direkt gesetzt
werden koennen.the_dictionary - steht f?r das W?rterbuch, in dem alle Schl?sselw?rter des Vektors aufgef?hrt sind.public java.util.TreeMap getList(Documentvector listVector)
listVector - steht f\374r den Vektor der in eine Liste konvertiert werden soll.public java.util.TreeMap getMap(Dictionary dicMap)
dicMap - ist das zu konvertierende Woerterbuch (Typ Dictionary).public java.lang.String toString()
|
||||||||||
| PREV CLASS NEXT CLASS | FRAMES NO FRAMES | |||||||||
| SUMMARY: INNER | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD | |||||||||