SecHuman

Collaboration of Security Research and the Humanities

SecHuman is a doctoral program focusing on Security for Humans in Cyberspace from an inter- and transdisciplinary perspective. 13 PhD students with technical as well as backgrounds in humanities explore issues in IT security. Companies as well as partners from politics serve as advisors, making sure that the questions in focus are of relevance for society. Besides the technical disciplines, researchers from various fields including education, journalism, linguistics, media science, peace research, as well as social science serve as principal investigators in the project. The PhD school is part of the Horst Görtz Institute, one of the leading institute in IT security. The PhD program SecHuman is funded by the North Rhine-Westphalian Ministry of Culture and Science (MKW). Besides the Ruhr University also the FH Dortmund as well as the TU Dortmund are partners in this project. The project has just been extended for a second phase of funding, until June 30, 2024.

Further information

Authorship Identification and Interpretable Natural Language Processing

We have developed the AdHominem framework for reliable and interpretable authorship identification from text. This system has recently won the PAN@CLEF 2020 challenge.

Follow the links for further information:

https://pan.webis.de/clef20/pan20-web/author-identification.html

https://sechuman.ruhr-uni-bochum.de/team/ , http://www.eg.bucknell.edu/~rmn009/

Deep Bayes Factor Scoring for Authorship Verification

Heutzutage kommunizieren wir mit anderen Menschen beruflich wie privat zunehmend über das Internet. In vielen schriftsprachlichen Bereichen des Internets, wie Texten in sozialen Medien, Online Rezensionen oder anonymen E-Mails, haben die Leser/innen keine gesicherten Informationen über die Verfasser/innen. Daher ist es hier möglich, den Sprachgebrauch von Gruppen und Einzelpersonen zu imitieren bzw. zu stilisieren, um die eigene Identität zu verschleiern bzw. falsche Identitäten vorzutäuschen. Bei Texten, die im Schutze der Anonymität in krimineller Absicht oder zur Verbreitung von Desinformation verfasst werden, ergibt sich hieraus ein großes Schadenspotential.
Die Autorenschaftsanalyse im Bereich der forensischen Linguistik kann das Bedrohungspotential verringern. Das riesige Ausmaß im Internet produzierter Daten verlangt automatisierte Verfahren, die die Analyse unterstützen. Ziel dieses Forschungsprojekts ist daher die Entwicklung von Algorithmen, die verdächtige Texte identifizieren, um die linguistische Analyse auf Zweifelsfälle zu reduzieren. Mit Hilfe moderner Verfahren aus dem Bereich der künstlichen Intelligenz können Teilprozesse wie die Extraktion linguistischer Merkmale automatisiert, aber auch Gesamtsysteme basierend auf Methoden des Deep-Learning realisiert werden.
Dies wird erschwert, da Texte aus sozialen Medien u.a. verhältnismäßig kurz sind, oder der Online-Sprachgebrauch sich deutlich von dem Standardsprachgebrauch unterscheidet. Dieses Forschungsprojekt beschäftigt sich daher mit der automatisierten Analyse der Autorenschaft von Online-Texten und untersucht, inwieweit eine Klassifikation mit hoher Zuverlässigkeit in Datenmaterial von inhärent großer Variabilität möglich ist.
Als Beispiel sei das von uns entwickelte Siamesische Netzwerk für den automatisierten Textvergleich (Autorenschaftfverifikation). Hierbei wird geprüft, ob zwei inkriminierte Texte von der gleichen Person verfasst wurden. Unser Siamesisches Netzwerk beschreibt eine aus zwei identischen hierarchischen Netzwerken bestehende Deep-Learning-Topologie, von denen jedes eines der beiden zu untersuchenden Texten aufnimmt. Die CNN/RNN-basierte hierarchische Struktur ermöglicht eine Verarbeitung von Texten variabler Länge. Die Ausgabe der letzten Schicht der beiden Netzwerke werden dann einer kontrastiven Kostenfunktion zugeführt, welche die Ähnlichkeit der vorliegenden Texte prüft. Mit Hilfe der Integration eines „Attention“-Mechanismus besteht zudem die Möglichkeit, die Entscheidung des Systems visuell auf Buchstaben-, Wort- oder Satzebene zu interpretieren.

Weiterführende Informationen (click)