Arbeitsgruppe Harbusch

Die Arbeitsgruppe „Natürlichsprachliche Künstliche Intelligenz” am Institut für Computervisualistik beschäftigt sich mit verschiedenen Themen aus den Forschungsgebieten syntaktischer Analyse und Generierung natürlicher Sprache. Im Bereich der Grundlagenforschung zu syntaktischen Grammatikformalismen arbeiten wir derzeit am Formalismus der Performance Grammar (PG). Diese Entwicklungen finden in enger Kooperation mit Prof. Dr. Gerard Kempen (University of Leiden und Max Planck Institute in Nijmegen, Niederlande) statt. Wir arbeiten sowohl am Parsing, als auch an der (Paraphrasen-) Generierung mit PG. Die Entwicklungsarbeiten an der Grammatik werden von Korpusstudien geleitet, die die Diskrepanz zwischen Grammatikalität und Frequenz von Satzkonstruktionen aufzeigen. Die Beobachtungen setzen wir in entsprechende Grammatikkonstruktionen in PG um. Der Formalismus wird auch in EASYTALK, einer effizienten Texteingabekomponente für Leichte Sprache, eingesetzt.

Ein Formalismusunabhängiger Themenschwerpunkt liegt bei dem linguistischen Phänomen der Satzkoordination. Wir haben eine Generierungskomponente von Elisionen in Satzkoordinationen für das Deutsche und das Niederländische entwickelt (cf. ELLEIPO). Diese Komponente wurde in enger Zusammenarbeit mit Prof. Dr. Mare Koit und Prof. Dr. Haldur Õim (beide von der Universität Tartu, Estland) auf die estnische Sprache übertragen; mit Prof. Dr. István Bátori (Emeritus der Universität Koblenz-Landau) auf das Ungarische; mit Denis Krusko bzw. Memmesheimer (hier am Institut) auf das Russische, sowie mit Denis Memmesheimer, Dr. Joanna Franek (Uniwersytet Szczeciński, Polen), and Wojciech Kwasnik (Universität Koblenz-Landau) auf das Polnische.


Dabei konnten wir verblüffende Ähnlichkeiten feststellen, obwohl das Estnische und das Ungarische einer anderen Sprachfamilie, nämlich den finnugrischen Sprachen, angehört. Gleiches konnte für die beiden slawischen Sprachen Polnisch und Russisch beobachtet werden. Darüber hinaus arbeiten wir an einer Parsingkomponente, die in den Analyseergebnissen eines probabilistischen Parsers (der Chart) alle Satzellipsen rekonstruiert. Dazu haben wir einen parallelen Korpus zur Evaluation der Komponente aufgebaut.