Institut für Unternehmensführung

Computer-gestützte Textanalyse: Analyse der Möglichkeiten einer Stammformreduzierung

  • Typ:Diplom-/Masterarbeit
  • Datum:Juni
  • Betreuer:

    Julia Höfer

  • In der heutigen Zeit ermöglichen vor allem Internettechnologien den scheinbar unbegrenzten Zugang zu Informationen. Besonders elektronisch vorliegende Texte als Informationsquelle gewinnen immer mehr an Bedeutung. Die täglich zunehmende Flut von Informationen stellt den Nutzer jedoch vor ein Auswahl- und Entscheidungsproblem: Es ist ihm nicht mehr möglich alle Dokumente selbst zu lesen, die darin enthaltenen Informationen zu verarbeiten und daraus die für ihn relevanten Schlüsse zu ziehen. Daher gewinnen computer-gestützte Analysemethoden zur Bearbeitung natürlichersprachlicher Texte immer mehr an Bedeutung.
     
    Ein wesentlicher Bereich der computer-gestützten Textanalyse ist die Computerlinguistik, die sich mit der maschinellen Verarbeitung natürlicher Sprache beschäftigt. Neben der Zerlegung der einzelnen Texte in sprachlich relevante Einheiten (z.B. Wörter) und der Entfernung inhaltsleerer Stopp-Wörter (z.B. doch, für, und) kann bei der linguistischen Verarbeitung von Texten auch eine Rückführung der im Dokument enthaltenen Wörter auf ihre Stammform vorgenommen werden. Existierende Verfahren konzentrieren sich jedoch primär auf die englische Sprache. Die beiden dazu grundsätzlich geeigneten Vorgehensweisen sollen im Rahmen dieser Arbeit genauer analysiert werden und Möglichkeiten für die Anwendung in der deutschen Sprache aufgezeigt werden:  
    • Lemmatisierung: Das Ergebnis der Stammformreduktion ist ein eigenständiges Wort der Sprache
    • Stemming: Die Wörter werden mit Hilfe eines Algorithmus auf einen „Wortkern“ reduziert.
    Anforderungen:
    • Programmierkenntnisse (idealerweise in mehreren Programmiersprachen)
    • Spass an und hohe Zuverlässigkeit bei Rechercheaufgaben
    • Selbständige Arbeitsweise und Eigeninitiative
    • Gewissenhaftigkeit und Genauigkeit
    • Analytisches Denken