dataanalysis.docvectors
Class Vectorizer

java.lang.Object
  |
  +--dataanalysis.databases.DatabaseElement
        |
        +--dataanalysis.docvectors.Vectorizer

public class Vectorizer
extends DatabaseElement

transformiert die textuelle Darstellung eines Dokuments in einen vektoriellen Wert. Die Classifier k?nnen die Vektorisierer f?r die Klassifizierung von Texten einsetzen.

Since:
1.0
See Also:
Classifier, Serialized Form

Field Summary
protected  java.lang.String delimiters
          der String, der die Trennzeichen des Vektorisierers enthaelt.
Standardwert ist: "<>&()[]#{}'\"`+*-/.,;:!?=\\\t\n\r\f $_^@1234567890-"

private  Documentvector docuVector
          dient nur fuer die String-Ausgabe des Dokumentvektors
private  Dictionary negativDictionaries
          beinhaltet das Negativ-Woerterbuch (Stop-Liste)
 java.lang.String negativDictionariesName
           
 Dictionary[] synDict
          nimmt die verschiedenen Synonym-W\366rterb\374cher auf.
 java.lang.String synDictName
           
private  Dictionary synonymDictionaries
          beinhaltet das Synonym-Woerterbuch
 java.lang.String synonymDictionariesName
          beinhaltet den Namen des Synomym-Woerterbuchs
private  Dictionary vectorDictionaries
          beinhalted die Feature-Wort-Liste(n)
 java.lang.String vectorDictionariesName
          beinhaltet den Namen des Feature-Woerterbuchs
 DictionaryDatabase vectorizerDicDatabase
          Diese Datenbank benutzt der Vektorizer um Woerterbuecher abzuspeichern.
 
Fields inherited from class dataanalysis.databases.DatabaseElement
elementname
 
Constructor Summary
Vectorizer()
           
Vectorizer(DictionaryDatabase vectorDicDB)
          uebergibt die vorhandene Datenbank vectorDicDB an die Vectorisierer-Datenbank vectorizerDatabase.
Vectorizer(int dimension)
          legt die initiale Dimension des Vektors, der bei der Vektorisierung erzeugt wird, fest.
 
Method Summary
 void addNegativeDictionary(Dictionary the_dictionary)
          Deprecated.  
 void addSynonymDictionary(Dictionary the_dictionary)
          Deprecated.  
 java.lang.String getDelimiters()
          Liefert den Wert von delimiters.
 java.util.TreeMap getList(Documentvector listVector)
          erzeugt aus dem Dokument-Vector eine Liste (TreeMap).
 java.util.TreeMap getMap(Dictionary dicMap)
          wandelt ein Dictionary in eine TreeMap um.
 void setDatabase(DictionaryDatabase databaseVectorizer)
          setzt die Datenbank databaseVectorizer, ueber die der Klassifizierer auf Dictionaries und Vectorizer zugreift.
 void setDelimiters(java.lang.String v)
          Setzt den Wert von delimiters.
 void setNegativDictionariesName(java.lang.String nDicName)
          legt den Namen nDicName fuer das zu benutzende Negativ-Woerterbuch fest.
 void setSynonymDictionariesName(java.lang.String sDicName)
          legt den Namen sDicName fuer das zu benutzende Synonym-Woerterbuch fest.
 void setVectorDictionariesName(java.lang.String vDicName)
          legt den Namen vDicName fuer das zu benutzende Feature-Woerterbuch fest.
 void setVectorDictionary(Dictionary the_dictionary)
          Deprecated.  
 java.lang.String toString()
          wandelt alle wichtigen Daten in einen String um.
 Documentvector vectorize(java.lang.String document, boolean autoAddWord)
          transformiert ein ?bergebenes Dokument document in einen Vektor.
 
Methods inherited from class dataanalysis.databases.DatabaseElement
getElementname, logMessage, setElementname
 
Methods inherited from class java.lang.Object
, clone, equals, finalize, getClass, hashCode, notify, notifyAll, registerNatives, wait, wait, wait
 

Field Detail

vectorDictionaries

private transient Dictionary vectorDictionaries
beinhalted die Feature-Wort-Liste(n)
Since:
1.0

docuVector

private Documentvector docuVector
dient nur fuer die String-Ausgabe des Dokumentvektors
Since:
1.13

vectorDictionariesName

public java.lang.String vectorDictionariesName
beinhaltet den Namen des Feature-Woerterbuchs
Since:
1.5

synonymDictionaries

private transient Dictionary synonymDictionaries
beinhaltet das Synonym-Woerterbuch
Since:
1.1

synonymDictionariesName

public java.lang.String synonymDictionariesName
beinhaltet den Namen des Synomym-Woerterbuchs
Since:
1.5

negativDictionaries

private transient Dictionary negativDictionaries
beinhaltet das Negativ-Woerterbuch (Stop-Liste)
Since:
1.0

vectorizerDicDatabase

public DictionaryDatabase vectorizerDicDatabase
Diese Datenbank benutzt der Vektorizer um Woerterbuecher abzuspeichern. Synonym-Woerterbuch Negativ-Woerterbuch Feature-Woerterbuch
Since:
1.6

negativDictionariesName

public java.lang.String negativDictionariesName
Since:
1.5

synDict

public transient Dictionary[] synDict
nimmt die verschiedenen Synonym-W\366rterb\374cher auf. (Methode addSynonymDictionary)
Since:
1.3

synDictName

public java.lang.String synDictName
Since:
1.5

delimiters

protected java.lang.String delimiters
der String, der die Trennzeichen des Vektorisierers enthaelt.
Standardwert ist: "<>&()[]#{}'\"`+*-/.,;:!?=\\\t\n\r\f $_^@1234567890-"
Since:
1.14

Constructor Detail

Vectorizer

public Vectorizer()

Vectorizer

public Vectorizer(int dimension)
legt die initiale Dimension des Vektors, der bei der Vektorisierung erzeugt wird, fest.
Parameters:
dimension - steht f?r die Dimension des Dokumentvektors.
Since:
1.0

Vectorizer

public Vectorizer(DictionaryDatabase vectorDicDB)
uebergibt die vorhandene Datenbank vectorDicDB an die Vectorisierer-Datenbank vectorizerDatabase.
Since:
1.6
Method Detail

getDelimiters

public java.lang.String getDelimiters()
Liefert den Wert von delimiters.
Returns:
den Wert von delimiters.
Since:
1.14

setDelimiters

public void setDelimiters(java.lang.String v)
Setzt den Wert von delimiters.
Parameters:
v - Der Wert, der delimiters zugewiesen werden soll.
Since:
1.14

vectorize

public Documentvector vectorize(java.lang.String document,
                                boolean autoAddWord)
transformiert ein ?bergebenes Dokument document in einen Vektor.
Zuerst werden alle W?rter entfernt, die in den Negativ-Dictionaries stehen. Anschlie?end werden ggf. Synonyme ersetzt. W?rter, die im Dokument auftauchen, aber nicht im VectorDictionary werden diesem hinzugefuegt.
Diesen Vektor kann der Klassifizierer f?r die weitere Klassifizierung einsetzen.
Parameters:
document - steht f?r das zu vektorisierende Dokument.
Returns:
der Vektor des vektorisierten Dokuments.
Since:
1.0
See Also:
Classifier



setDatabase

public void setDatabase(DictionaryDatabase databaseVectorizer)
setzt die Datenbank databaseVectorizer, ueber die der Klassifizierer auf Dictionaries und Vectorizer zugreift.
Since:
1.6

setVectorDictionariesName

public void setVectorDictionariesName(java.lang.String vDicName)
legt den Namen vDicName fuer das zu benutzende Feature-Woerterbuch fest.
Parameters:
vDicName - steht fuer den Namen des Woerterbuchs.
Since:
1.7

setNegativDictionariesName

public void setNegativDictionariesName(java.lang.String nDicName)
legt den Namen nDicName fuer das zu benutzende Negativ-Woerterbuch fest.
Parameters:
nDicName - steht fuer den Namen des Woerterbuchs.
Since:
1.7

setSynonymDictionariesName

public void setSynonymDictionariesName(java.lang.String sDicName)
legt den Namen sDicName fuer das zu benutzende Synonym-Woerterbuch fest.
Parameters:
sDicName - steht fuer den Namen des Woerterbuchs.
Since:
1.7

addSynonymDictionary

public void addSynonymDictionary(Dictionary the_dictionary)
Deprecated.  
f?gt ein neues W?rterbuch the_dictionary zum Vektorisierer hinzu. Der Vektorisierer geht alle W?rterb?cher durch und ersetzt W?rter durch verwandte W?rter. Seit der Version 1.10 wird diese Methode nicht mehr benutzt, da die Woerterbuecher nun gesetzt werden koennen.
Parameters:
the_dictionary - stellt ein neues W?rterbuch dar, das zum Vektorisierer hinzugef?gt wird.
Since:
1.0

addNegativeDictionary

public void addNegativeDictionary(Dictionary the_dictionary)
Deprecated.  
f?gt ein Negativ-W?rterbuch the_dictionary zum Vektorisierer hinzu. Alle W?rter im Text, die im W?rterbuch auftauchen werden nicht ber?cksichtigt. Seit der Version 1.10 wird diese Methode nicht mehr benoetigt, da die Woerterbuecher nun direkt gesetzt werden koennen.
Parameters:
the_dictionary - steht f?r ein "negatives" W?rterbuch, das zum Vektorisierer hinzugef?gt wird.
Since:
1.0

setVectorDictionary

public void setVectorDictionary(Dictionary the_dictionary)
Deprecated.  
spezifiziert das W?rterbuch the_dictionary, in dem alle Schl?sselw?rter des Vektors auftauchen. Diese Methode wird seit der Version 1.10 nicht mehr benoetigt, da die Woerterbuecher nun direkt gesetzt werden koennen.
Parameters:
the_dictionary - steht f?r das W?rterbuch, in dem alle Schl?sselw?rter des Vektors aufgef?hrt sind.
Since:
1.0

getList

public java.util.TreeMap getList(Documentvector listVector)
erzeugt aus dem Dokument-Vector eine Liste (TreeMap).
Parameters:
listVector - steht f\374r den Vektor der in eine Liste konvertiert werden soll.
Since:
1.2

getMap

public java.util.TreeMap getMap(Dictionary dicMap)
wandelt ein Dictionary in eine TreeMap um. Diese Funktion dient zur Vereinfachung der Ausgabe bei der Methode toString.
Parameters:
dicMap - ist das zu konvertierende Woerterbuch (Typ Dictionary).
Returns:
die TreeMap des Woerterbuchs.
Since:
1.9

toString

public java.lang.String toString()
wandelt alle wichtigen Daten in einen String um. Die Daten koennen somit leichter ausgegeben und ueber- prueft werden (Testlauf)
Overrides:
toString in class DatabaseElement
Since:
1.9