Cyberhate-Mining

Können Analytics den Hass im Netz eindämmen?

Die Debattenkultur im Netz ist aus den Fugen geraten. Nutzerkommentare auf Nachrichtenseiten sind häufig ideologisch, beleidigend und zum Teil hasserfüllt. Mit hohem Moderationsaufwand filtern Redaktionen die schlimmsten Beiträge heraus - und werden als Zensoren beschimpft. Andere Redaktionen kapitulieren und schränken die Kommentarfunktion ein. Gibt es eine Alternative zum Abschalten? Das Projekt Cyberhate-Mining (#HateMining) untersucht, welchen Beitrag automatische Textanalysen bei der Moderation von Online-Diskussionen leisten können.

Um was geht es hier?

Debatten- und Diskussionsforen im Internet werden häufig von einzelnen Personen oder kleinen Gruppen negativ beeinflusst. Spätestens mit Beginn der Flüchtlingskrise sind die Netzdebatten um Ausländer und Muslime in den Fokus der Öffentlichkeit gerückt. Es ist bekannt, dass es viele Hasskommentare zum Thema Flüchtlinge gibt  –  meistens ohne Konsequenzen für diejenigen, die den Hass geäußert haben. Wohl aber mit Auswirkungen für die Diskussion selbst, für Journalisten und für andere Diskussionsteilnehmer. Soziale Medien fördern durch ihr meist rein kommerziell orientiertes Design die Emotionalität der Debatte und Ideologisierung der Kommentare. Häufig scheint es nur noch schwarz und weiß zu geben. Dies alles hat die Verbreitung von Hass im Netz begünstigt - mit negativen Auswirkungen für die Gesellschaft.

Bereits mehr als die Hälfte der journalistischen Portale in Deutschland beschränken inzwischen die Kommentarfunktion auf ihrer Internetseite und in den sozialen Medien. Es ist offensichtlich, dass viele Redaktionen mit der Flut an Kommentaren zu kontroversen Themen überfordert sind. Neue analytische Methoden zur Auswertung von Kommentaren sind daher absolut notwendig, um den erheblichen Moderationsaufwand zu reduzieren, Propaganda und Hetze zu verhindern und damit letztendlich die Online-Debatte zu erhalten.

Hier setzt das Projekt Cyberhate-Mining (#HateMining) an. Es fokussiert sich auf automatische Text- und Inhaltsanalysen, um Hass im Internet zu erkennen und letztlich einzudämmen. Die Erkennung mit Hilfe von Textanalyse-Techniken ist schwierig – aber wir zeigen jedoch mögliche Wege auf. Dafür entwickeln wir keine eigene Kommentarplattform, sondern prototypische Verfahren, die sich durch Betreiber von Internetseiten leicht in bestehende Foren oder Kommentarfunktionen integrieren lassen. Am Ende dieser Webseite können Sie selbst ausprobieren, wie gut die verschiedenen Verfahren funktionieren.

Wir entwickeln automatische Textanalyse-Tools, die Hass in Kommentartexten erkennen. Dazu setzen wir vor allem auf die Techniken Natural Language Processing und Supervised Learning. Das Projekt verfolgt das Ziel, die Techniken für ein breiteres Publikum verständlich zu machen, und die Verfahren zur Hasserkennung möglichst transparent darzustellen.

Der Fokus des Projekts liegt auf der Analyse von Hass in Kommentaren zu Nachrichtenartikeln über die Flüchtlingskrise. Die Projektergebnisse sind nicht ohne weiteres übertragbar auf andere Emotionen und Themen. Alle Methoden lassen sich jedoch auch für andere Kontexte wiederverwenden, in denen Debatten im Netz aus den Fugen geraten.

Unsere Forschungsarbeit folgt dem Open Science Paradigma. Für dieses Projekt bedeutet dies, dass wir wir alle erarbeiteten Ergebnisse veröffentlichen und in Teilen über offene Schnittstellen zugänglich machen. Auf diese Weise wird eine Nutzung durch Journalisten und andere Wissenschaftler möglich. Bitte nehmen Sie Kontakt auf, falls Sie mit uns zusammenarbeiten möchten.

Ist das nicht automatische Zensur?

Im Verlauf des Projekts haben wir viele wertvolle Diskussionen über das Projekt selber, seine Umsetzbarkeit und die technischen Hintergründe geführt. Vor dem Hintergrund der gängigen Moderationspraxis sehen wir unseren Ansatz nicht als automatische Zensur, sondern als notwendige Hilfestellung für Community-Manager. Diese betreiben derzeit einen hohen Aufwand, damit sich Leser weiterhin an einer sachlichen Debatte beteiligen können - aber auch um rechtliche Vorgaben zu Onlineinhalten einhalten zu können.

Mit unserem Projekt möchten wir auch dazu beitragen, bei der Löschung von Kommentaren mehr Transparenz zu schaffen. Die bisherige Arbeit von Moderatoren geschieht in der Regel unsichtbar hinter den Kulissen (Beispiele siehe rechts). Auch Facebook löscht Inhalte, sperrt Nutzer und niemand weiß, warum. Algorithmen zur Text Analyse sind zwar ebenso eine Art "Black Box", die für Laien nicht transparent ist. Jedoch folgen die Verfahren klaren Regeln, die zum Teil auch sichtbar gemacht werden können. Die Entscheidungslogik der Verfahren basiert dabei im Wesentlichen auf vielen Quelldaten und nicht auf der individuellen Entscheidung eines Foren-Moderators.

Natürlich ist es denkbar, mit Hilfe von Algorithmen Kommentare automatisch zu löschen. Solche Verfahren lehnen wir aus den genannten Zielen zur Transparenz des Projektes selbstverständlich ab. Stattdessen stellen wir uns semi-automatische Verfahren vor, die durch menschliche Moderatoren überwacht werden. Es wäre auch denkbar, eine automatisierte Rückmeldung an den Kommentierer zurückzugeben, warum ein Kommentar nicht unmittelbar veröffentlicht wird. Viele weitere technische Design-Szenarien sind denkbar. Es ist daher der Mühe wert, über automatische Moderation von Hasskommentaren nachzudenken.

Datenbeschaffung

Der Weg zu unserer Datengrundlage

Für die Umsetzung unseres Vorhabens werden viele Daten in Form einer große Sammlung von Artikeln zum Thema Flüchtlingskrise und den dazu verfassten Nutzer-Kommentaren benötigt. Für Aufbau der Datenbasis verwenden wir so genannte Web-Scraping Techniken mit denen wir die Kommentare direkt von den untersuchten Plattformen abgreifen. Dabei werden sowohl journalistischen Nachrichtenportalen als auch alternative publizistische Internetseiten miteinbezogen. Bei der Auswahl der Plattformen spielte auch die technische Komplexität des Auslesens eine Rolle, d.h. Plattformen, die ein vergleichbar einfacheres Auslesen der Daten gestatten, wurden bevorzugt. Plattformen wie Spiegel Online, die die Kommentarfunktion bezüglich der Flüchtlingsdebatt deaktiviert haben, konnten nicht berücksichtigt werden.

Bis zum 30. Juni 2016 konnten auf diese Weise über 20.000 Artikel und mehr als 375.000 Kommentare von 14 verschiedenen Plattformen gesammelt werden.

0
Artikel
von Internetseiten
0
Kommentare
bis zum 30. Juni 2016

Technische Umsetzung

Die Implementierung des Web-Scraping erfolgte mithilfe von Scrapy umgesetzt, einem populären Web-Scraping Framework. Zum Durchsuchen der jeweiligen Plattformen nach relevanten Artikeln und Kommentaren setzen wir ein zweistufiges Verfahren ein:

  • Stufe 1: Identifizieren von Artikeln zum Thema Flüchtlinge
  • Stufe 2: Extrahieren der Kommentare zu den jeweiligen Artikeln

Pro Stufe und Nachrichtenplattform gibt es genau eine sogenannte Web Spider, welche die benötigten Daten automatisch aus den Internetseiten ausliest. Diese müssen speziell für jede Internetseite programmiert werden, denn das Vorgehen unterscheidet sich von Plattform zu Plattform. Alle Web Spiders werden regelmäßig ausgeführt, sodass neu veröffentlichte Artikel und Kommentare zeitnah erfasst und in die Datenbasis aufgenommen werden.

Selbstverständlich sammeln wir nur Kommentare, die für jedermann öffentlich einsehbar und verfügbar sind. Beim Sammeln beachten wir, falls vorhanden, die Vorgaben der Betreiber der jeweiligen Plattform. So werden keine Daten gesammelt, wenn dies in den Geschäftsbedingungen oder in der robots.txt verboten ist. Auch Schutzmaßnahme gegen eine Überlastung des Web-Servers umgehen wir nicht. Stattdessen sind unsere Web Spider so programmiert, dass Sie möglichst wenig Ladelast auf den abgefragten Webseiten erzeugen.

Das Projekt Cyberhate-Mining fokussiert auf Kommentare zu Artikeln, die einen Bezug zur Flüchtlingskrise haben. Zur Identifizierung der geeigneten Artikel im Rahmen des Web-Scraping, kamen drei unterschiedliche Strategien zum Einsatz:

  • Filterung relevanter Artikel über die Suchfunktion der Nachrichtenseite
  • Beschränkung der Web Spider auf die entsprechende Themenseite, z.B. Zeit Online oder Epoch Times
  • Durchsuchen gefundener Artikel nach festgelegten Stichwörtern

Einige Nachrichtenseiten und Blogs bieten eine Suchfunktion an, mit deren Hilfe sich nach Begriffen wie „Flüchtlingskrise“ oder „Flüchtlinge“ suchen lässt – manchmal wird die Verwendung dieser Suche jedoch durch die robots.txt untersagt. Mit Flüchtlings-Themenseiten oder Dossiers ist es möglich nur die dort verlinkten Artikel zu berücksichtigen. Für Plattformen, die weder Suchfunktion noch Themenseiten bereitstellen, wird ein Schlüsselwort-Verfahren eingesetzt. Die Relevanz jedes Artikels wird anhand eines oder mehrere Schlüsselwörter ermittelt, welche im Text vorkommen müssen.

Ein Blick auf die gesammelten Daten verrät bereits einiges über die untersuchten Plattformen und deren Kommentatoren. Journalistische Internetseiten veröffentlichen mehr Artikel zur Flüchtlingskrise als die meisten alternative publizistische Internetseiten. Spitzenreiter ist Zeit Online mit mehr als 5.8001) Artikeln, gefolgt von Epoch Times und Focus.de2). Im Zeitverlauf ist ein Ausschlag im September 2015 sowie im Januar und Februar 2016 bei vielen der Internetseiten erkennbar. Bei den Kommentaren ist dieses Phänomen erst mit geringer Verzögerung festzustellen. Welt.de ist Spitzenreiter mit der größten Anzahl an Kommentaren von über 180.000. Ihr folgen Epoch Times und Focus.de. Die längsten Diskussionen sind auf Welt.de zu finden. Hier gibt es im Durschnitt fast 100 Kommentare je Artikel.

Bewertungsverfahren

Es ist nach wie vor ziemlich schwierig, automatisiert Emotionen wie Hass in natürlich-sprachlichen Texten zu erkennen – aber auch nicht unmöglich. In den letzten Jahren wurden durch Verbesserungen in Algorithmik und Computer-Hardware neue Methoden entwickelt und bestehende Verfahren besser nutzbar.

„If it was possible to do this algorithmically,
Google or Facebook would have done it by now.“

Aja Bogdanoff (Aja B.) auf WIRED

Trotzdem kommt der Computer allein als neutraler Juror für die Erkennung von Hass-Kommentaren derzeit nicht in Frage. Um dennoch die für die Textanalyse-Tools notwendigen Einschätzungen der Kommentare zu erhalten, verwenden wir Nutzer-Bewertungen von realen Personen. Dieser so genannte Crowdsourcing-Ansatz ist nicht neu und wird bereits von anderen Wissenschaftlern verwendet.

Zum Lernen der Algorithmen benötigen wir möglichst viele bewertete Kommentare. Dennoch wird ein Kommentar nicht sofort nach der ersten Nutzer-Bewertung als Hass und Nicht-Hass klassifiziert. Um das Ausmaß der Subjektivität zu verringern, erheben wir bis zu sieben Bewertungen pro Kommentar. Dadurch erhoffen wir uns einen passenden Ausgleich zwischen Quantität und Qualität der bewerteten Kommentare.

Nach jeder Bewertung wird überprüft, ob der entsprechende Kommentar einer aus drei Kategorien zugeordnet werden kann. Sind genug Bewertungen abgegeben, wird der Kommentar in eine der Kategorien „Hass“, „Kein Hass“ oder „Weiß Nicht“ eingeordnet.

Um die automatische Erkennung von Hass-Kommentaren zu ermöglichen, sind insbesondere Kommentare interessant, die von Nutzern als Hass identifiziert werden, damit sie anschließend gezielt in Textanalyse-Tools untersucht werden. Ein Kommentar ist als Hass-Kommentar kategorisiert, sobald zwei Bedingungen erfüllt sind:

  • Drei Hass-Bewertungen ()
  • Maximal eine Kein-Hass-Bewertung ()

Ebenso wie hasserfüllte Kommentare, benötigen wir auch gewöhnliche, hassunerfüllte Kommentare um Lerntechniken zur automatischen Erkennung von Emotionen zu entwickeln. Die Einstufung in die Kategorie „Kein Hass“ erfolgt analog zu Hass-Kommentaren. Folgende zwei Bedingungen müssen erfüllt sein:

  • Drei Kein-Hass-Bewertungen ()
  • Maximal eine Hass-Bewertung ()

Es ist nicht immer möglich, eindeutig zu entscheiden, ob ein Kommentar hasserfüllt ist oder nicht. Sind sich Nutzer in den Bewertungen, die sie zu einem Kommentar abgeben, nicht einig, wird der entsprechende Kommentar weder als „Hass“ noch als „Kein Hass“ eingestuft, sondern der Kategorie „Weiß Nicht“ zugeordnet. Dies geschieht, sobald eine der folgenden Bedingungen erfüllt ist:

  • Die ersten zwei Bewertungen sind „Weiß Nicht“ ()
  • Es gibt zwei mehr „Weiß Nicht“-Bewertungen als übrige Bewertungen ( )
  • Es werden zwei Hass- und zwei Kein-Hass Bewertungen abgegeben ( )

Ergebnisse

Innerhalb der Bewertungsphase im Mai und Juni 2016 haben wir unser Projekt über soziale Netzerke publik gemacht und Personen zur Bewertung von Kommentaren aufgefordert. Hass oder Nicht-Hass – das war die Frage.

Als einzigen Anhaltspunkt für die Bewertung, konnten die Nutzer eine Hass-Definition des Ministerkomitees des Europarates (siehe rechts) parallel zu den Bewertungen abrufen. Am Ende der Datenerfassung waren 12.000 Bewertungen erfasst. Damit konnten anhand des vorstellten Bewertungsverfahrens insgesamt 2.983 Kommentare kategorisiert werden, die sich wie folgt über die drei Bewertungsoptionen aufteilen:

811
Kommentare
27% Hass
1561
Kommentare
52% Kein Hass
611
Kommentare
20% Weiß Nicht

 

27 Prozent für Hasskommentare ist ziemlich hoher Wert, der das reale Aufkommen solcher Kommentare deutlich übersteigt. Wir erklären uns den hohen Anteil dadurch, dass unsere Studienteilnehmer keine Vorerfahrung in der Bewertung von Kommentaren hatten und zudem durch den Kontext der Untersuchung geneigt waren, übermäßig viele Kommentare als Hass zu klassifizieren. Durch die Beschränkung auf Artikel zur Flüchtlingskrise wurden zudem Daten zu einem kontroversem Thema erhoben.

An den Bewertungen der Kommentare haben sich insgesamt mehr als 240 Nutzer beteiligt. Es ist wichtig zu beachten, dass es sich um keine repräsentative Umfrage handelt, wie sich schnell an diesen demografischen Merkmalen erkennen lässt. So haben etwa die Männer mit 23 und 24 Jahren und die Frauen zwischen 39 und 40 Jahren überdurchschnittlich viele Bewertungen abgegeben.

Bewertungen pro Plattform

Der „Kein Hass“-Anteil bei den journalistischen Nachrichtenportalen, aber auch bei den meisten alternativ publizistischen Internetseiten liegt bei über 50%. Ausnahmen sind Contra Magazin, Freie Welt und Junge Freiheit. Die Plattformen mit dem größten Anteil an „Kein Hass“-Kommentaren sind Der Tagesspiegel mit 72% und Zeit Online mit 67%.

Bei den Verteilungen ist zu beachten, dass der Anteil an Hasskommentaren von vielen Faktoren beeinflusst werden kann, z.B. durch die Moderationsstrategien der Plattformen. Ein geringer Anteil an mit Hass bewerteten Kommentaren könnte auch bedeuten, dass die Moderatoren einer Plattform beim Herausfiltern der Kommentare strenger sind als die anderer Plattformen.

Diskussionslänge und Hass

Es ist vorstellbar, dass Nutzer sich mit „Hass“-Kommentaren gegenseitig anstacheln. So können unter einzelnen Artikeln große Ansammlungen von „Hass“-Kommentaren entstehen. Um dies zu untersuchen, teilen wir die Artikel anhand der Anzahl der Kommentare in lange und kurze Diskussionen ein. Dabei ist zu beachten, dass die Plattformen sehr unterschiedliche Besucherzahlen haben. Eine Diskussion gilt als lang, wenn sie länger als der Durchschnitt der entsprechenden Plattform ist. Anschließend wird untersucht, wie viele als „Hass“ bewertete Kommentare unter den jeweiligen Artikeln vorhanden sind.

Die Ergebnisse zeigen keine eindeutige Tendenz. Dies könnte darauf zurückzuführen sein, dass wir nur ein Bruchteil der gesammelten Kommentare auch bewertet haben. Eine eindeutige Aussage über den Zusammenhang zwischen Diskussionslänge und Hassanteil ist erst möglich, sofern alle Kommentare unter einer großen Menge von Artikeln vollständig bewertet sind.

Kommentarlänge und Hass

Neben ihrer Zuordnung zu Artikel bzw. Plattformen, nehmen Kommentare an sich bereits unterschiedliche Formen an. In unserer Datensammlung kommen kürzere Kommentare häufiger vor. Der Anteil an „Hass“-Kommentaren nimmt jedoch mit steigender Kommentarlänge zu. So liegt er bei Kommentaren mit einer Länge zwischen 100 und 199 Zeichen bei 21% und bei einer Länge zwischen 500 und 599 Zeichen bei 33%.

Häufigste Wörter

Verfahren und Methoden, die dem Oberbegriff Text Mining zuzuordnen sind, stellen verschiedene Analyseverfahren zur Verfügung, mit denen Kerninformationen aus unstrukturierten Texten ausgewertet werden. Dazu zählen unter anderem folgende Methoden:

  • Überführung der Texte in ein einheitliches Format
  • Lemmatisierung und Stemming von Wörtern
  • Entfernen von wenig aussagekräftigen Stoppwörtern, wie „auf“ oder „ein“
  • Analyseverfahren wie Sentimentanalyse oder Topic Modeling
  • Visualisierung der Ergebnisse

Um die erwähnten Methoden anzuwenden nutzen wir unter anderem die Software MineMyText. Die Software ermöglicht beispielsweise das Zählen der häufigsten Wörter in den gesammelten Kommentaren. Die Auswertung der häufigsten Wörter je „Hass“- bzw. „Kein Hass“-Kommentar zeigt einige Unterschiede. So gibt es drei Wörter, die in beiden Kategorien häufig vorkommen: „Deutschland“, „Deutsch“ und „Land“. Während sich ihre Häufigkeit in „Kein Hass“-Kommentaren jedoch auf 8% bis 12% beläuft, so sind sie in „Hass“-Kommentaren öfter vertreten (16%-21%). Häufige Wörter, die sich eher in „Kein Hass“-Kommentaren finden lassen, sind „Mensch“ und „Gut“, jeweils mit 9%.

Einschränkungen und Limitationen

Unsere Form der Datenerhebung unterliegt zahlreichen Einschränkungen, die die Neutralität der Quelldaten und damit Ergebnisse verzerren. Die Auswahl der untersuchten Plattformen und auch die Masse der Nutzer, die Kommentare bewertet haben, ist nicht repräsentativ ausgewählt. Die Moderationspraxis der einzelnen Plattformen hat ebenfalls Einfluss auf unsere Daten, da nur veröffentlichte Kommentare in unsere Analyse einfließen. Außerdem können wir nicht garantieren, dass wir alle Artikel zur Flüchtlingskrise und Kommentare in unseren Web Spidern einbezogen haben.

Trotz der Angabe einer Hass-Definition, bleibt die Bewertung der Kommentaren durch Personen natürlich subjektiv. Das bedeutet, dass ein Kommentar, der von einer Person als Hass angesehen wird, von einer zweiten Person möglicherweise als unkritisch betrachtet wird. Zwar musste ein Kommentar von drei unterschiedlichen Personen gleich klassifiziert sein, um als Hasskommentar eingestuft zu werden, aber nichtsdestotrotz gibt es sicher unterschiedliche Meinungen darüber, wann ein Kommentar als Hass einzustufen ist. Wir möchten uns hierüber kein Urteil erlauben und zeigen aus diesem Grund auch keine einzelnen Kommentare auf der Projektwebseite an.

Trollidentifizierung

Meinung oder Propaganda?

Identifizierung von Trollen

Personen, die absichtlich die Kommunikation in einer Online-Community stören, werden als Trolle bezeichnet. Sie posten nutzlose, ablenkende und kontraproduktive Beiträge, um im besten Fall eine fruchtlose Diskussion anzustoßen. Teilnehmer solcher Diskussion werden dabei oft unterschwellig von den Trollen provoziert. Zudem existiert eine zweite, deutlich professionellere Art des Trollens, die das Ziel hat, systematisch Propaganda zu verbreiten, um die öffentliche Meinungsbildung und das Verhalten von Journalisten zu beeinflussen.

Das Projekt Cyberhate-Mining untersucht mit analytischen Methoden, um „Troll-Beiträge“ als solche zu erkennen. Unter anderem gestattet es die umfangreiche Datensammlung, nach Copy/Paste-Beiträgen bzw. automatisiert veröffentlichten Beiträgen von Kommentaren über verschiedene Plattformen zu suchen. Dennoch: Die Identifizierung von Trollen, rein auf Basis der Kommentartexte ist schwierig. Die beste Propaganda war schon immer jene, die als solche nicht zu erkennen ist.

Wer schreibt eigentlich Kommentare?

Aufgrund riesiger Kommentarmengen und Nutzerzahlen scheint es unmöglich, dass einzelne Nutzer die vielen Anderen durch ihre Kommentare beeinflussen können. Zählt man jedoch die Anzahl der Kommentare jedes Nutzers, wird schnell deutlich, dass nur ein Bruchteil aller Nutzer den Großteil der Kommentare schreibt. Dieses Phänomen lässt sich bei allen der 13 untersuchten Plattformen beobachten. Somit entsteht der Eindruck, dass ein kleiner aktiver Teil an Nutzern meinungsbildend sein könnte.


Wie viel Einfluss die sehr aktiven Nutzer auf einer gesamten Plattform haben, ist durch die nachfolgende Grafik sichtbar. Beispielsweise schreiben auf der Plattform Focus Online gerade einmal 6% der Nutzer mehr als die Hälfte aller Kommentare. Für andere Plattformen ergibt sich ein ähnliches Bild.



Vorgehen zur Troll-Identifizierung

Um überhaupt Trolle in unserem Datensatz identifizieren zu können, haben wir im ersten Schritt alle 63.478 Nutzer extrahiert. Ein Nutzer ist durch die Kombination aus Username und Plattform eindeutig identifizierbar. Das ein und die selbe Aktion mehrere Accounts anlegt oder mehrere Personen einen gemeinsamen Account nutzen, können wir dabei nicht berücksichtigen. Zusätzlich müssen unsere Methodiken zwischen außerordentlich aktiven Nutzern und potenziellen Trollen unterscheiden können.

Im nächsten Schritt klassifizierten wir jeden Nutzer anhand von sechs verschiedenen Kennzahlen. Um die einzelnen Indikatoren untereinander besser vergleichen zu können, haben wir diese normalisiert. Bei dem Normalisierungsschritt wurden anhand von Quantilen ebenfalls Ausreißer geglättet, um Tendenzen, die unsere Kennzahlen einseitig verzerren, zu relativieren. Anschließend wurden die Kennzahlen je nach Relevanz gewichtet und in einen endgültigen Troll-Score pro Nutzer verdichtet. Die sechs Kennzahlen werden im folgenden beschrieben:

Anzahl an Kommentaren

Der Indikator Anzahl ist die Gesamtmenge an Kommentaren, die ein Nutzer geschrieben hat. Eine hohe Anzahl spricht dafür, dass der Nutzer sehr aktiv an Diskussion teilnimmt und viele Leute mit seinen Kommentaren erreicht. Da dies ein Ziel von Influencern oder auch Trollen ist, wird dieser Indikator benötigt.

Zeitlicher Abstand

Der Indikator Zeit basiert auf der Lebenszeit eines Nutzers gemessen an dem Zeitabstand zwischen dem ersten und letzten Kommentar. Zusätzlich verwenden wir die Anzahl an Kommentaren, um den durchschnittlichen zeitlichen Abstand für Kommentare in der Lebenszeit zu berechnen. Dieser Indikator wird benötigt, um die Aktivität eines Nutzer zu messen.

Durchschnittliche Position

Der Indikator Position ist die durchschnittliche Position an der sich ein Kommentar eines Nutzers unter einem Artikel befindet. Für einen Influence ist eine gute Position besonders wichtig, da so sein Kommentar direkt unter dem Artikel erscheint und häufiger gelesen wird. Somit ist es sinnvoll, die durchschnittliche Position der Nutzer zu speichern.

Ähnlichkeit

Der Indikator Ähnlichkeit enthält die Anzahl an Kommentaren eines Nutzers, die nicht unter seinen eignen Kommentaren einzigartig sind. Damit auch minimal abgeänderte Kommentare als Duplikat erkannt werden können, wurde die Ähnlichkeit mithilfe des Jaccard-Koeffizientens berechnet. Dieser Indikator spiegelt die Anzahl der Copy & Paste-Beiträge wider.

Intervall

Der Indikator Intervall spiegelt wider, wie oft ein Nutzer innerhalb kürzester Zeit unter verschiedenen Artikeln kommentiert hat. Dazu wird der Indikator jedes Mal erhöht, wenn der Nutzer innerhalb von drei Minuten mehrere Artikel kommentiert. Da dieser Zeitraum zu kurz ist, um Artikel zu lesen und qualitative Kommentare zu verfassen, werden so Nutzer mit Copy & Paste-Verhalten aufgedeckt.

Durchschnittliche Länge

Der Indikator Länge dient als Merkmal, ob ein Nutzer die durschnittliche Kommentarlänge der anderen Nutzer auf der Plattform stets überschreitet. Trollen geht es darum die konstruktive Diskussion zu stören. Mit vielen und besonders langen Kommentaren ist dies leicht möglich, da so die aktive Diskussion unterbrochen wird.

Plattformübergreifende Ähnlichkeiten

Unabhängig von den Analysen individueller Kommentatoren, haben wir mittels Jaccard-Koeffiziens und TF-IDF plattformübergreifend die Ähnlichkeit aller Kommentartexte überprüft. Mittels der Ergebnisse ist es uns möglich, mit einer geringen Unsicherheit, Nutzer plattformübergreifend zu identifizieren, wenn sie auf beiden Plattformen ähnliche Kommentare geschrieben haben.

Mit dieser Methodik konnten wir unter allen 315 015 Kommentaren 1 455 nicht einzigartige Kommentare ermittelt, welche eine hohe Ähnlichkeit mit anderen Kommentaren aufweisen.

Ergebnisse

Mittels des entwickelten Troll-Score wurden alle Nutzer bewertet. Die nachfolgende Tabelle enthält die Top 10 der potenziellen Trolls über alle Plattformen hinweg. Die Ergebnisse lassen sich nach Plattformen filtern.

Name Platform Anzahl Länge Zeit Position Ähnlichkeit Interval Troll-Score
Dieter S. Focus Online 405 776.4 53 56 29 51 0.82
Volker S. Compact Online 462 1060.09 11 22 134 18 0.73
JR Compact Online 181 262.56 3 52 25 46 0.73
Dietrich von Bern Contra Magazin 588 1435.39 7 15 14 21 0.72
Manfred R. Focus Online 195 271.32 22 117 25 77 0.71
deckergs Die Welt 1226 170.82 28 183 12 128 0.71
el_tigger Die Welt 240 310.97 111 71 2 108 0.63
ixi Compact Online 104 427.13 23 44 11 16 0.61
Karl B. Compact Online 174 841.6 34 14 23 7 0.59
jo Compact Online 99 399.09 34 54 10 11 0.59
Ø Total - 4.96 403.15 1031 80.49 0.02 0.93 0.13
Name Platform Anzahl Länge Zeit Position Ähnlichkeit Interval Troll-Score
MastaFu Alles Schall und Rauch Blog 118 1497.25 109 26 2 1 0.39
Hochstämmer juhee Alles Schall und Rauch Blog 70 1604.56 537 18 0 1 0.38
freethinker Alles Schall und Rauch Blog 140 466.04 254 13 0 2 0.37
xabar Alles Schall und Rauch Blog 289 1630.42 130 17 0 0 0.34
freeman frei Alles Schall und Rauch Blog 7 714.86 9 28 0 1 0.29
Unknown Alles Schall und Rauch Blog 84 583.85 455 13 0 0 0.29
mikem777 Alles Schall und Rauch Blog 39 2502.21 311 12 0 10 0.29
Daisy S. Alles Schall und Rauch Blog 23 2034.96 113 16 0 3 0.26
Gustav Alles Schall und Rauch Blog 11 2528.27 179 8 0 5 0.26
aufgewachter Alles Schall und Rauch Blog 4 1339.75 107 9 0 0 0.25
Ø Total Alles Schall und Rauch Blog 3.39 709.67 1592 15.89 0.0 0.16 0.13
Name Platform Anzahl Länge Zeit Position Ähnlichkeit Interval Troll-Score
Eric B. Cicero 6 NA 985 19 0 0 0.41
GWalter Cicero 6 NA 3 2 2 0 0.31
Christa W. Cicero 83 1008.35 135 23 0 0 0.29
Karola S. Cicero 100 800.93 111 31 0 1 0.29
Sigismund R. Cicero 6 NA 2559 29 0 0 0.25
Jacqueline G. Cicero 56 734.55 83 25 0 0 0.25
Joachim W. Cicero 23 1283.83 304 24 0 0 0.25
Uwe D. Cicero 28 897.79 203 31 0 0 0.25
Achim D. Cicero 10 NA 499 38 0 0 0.24
Andreas M. Cicero 14 NA 329 12 0 0 0.24
Ø Total Cicero 2.39 698.36 717 26.49 0.0 0.05 0.13
Name Platform Anzahl Länge Zeit Position Ähnlichkeit Interval Troll-Score
Volker S. Compact Online 462 1060.09 11 22 134 18 0.73
JR Compact Online 181 262.56 3 52 25 46 0.73
ixi Compact Online 104 427.13 23 44 11 16 0.61
Karl B. Compact Online 174 841.6 34 14 23 7 0.59
jo Compact Online 99 399.09 34 54 10 11 0.59
news Compact Online 61 416.1 6 36 15 14 0.57
Walter G. Compact Online 88 NA 141 26 27 0 0.55
! Compact Online 52 385.19 31 38 16 12 0.55
willy Compact Online 36 524.67 53 33 7 6 0.53
pauli Compact Online 28 289.14 98 51 3 4 0.53
Ø Total Compact Online 4.02 603.37 496 40.24 0.14 0.86 0.13
Name Platform Anzahl Länge Zeit Position Ähnlichkeit Interval Troll-Score
Dietrich von Bern Contra Magazin 588 1435.39 7 15 14 21 0.72
camilotorres Contra Magazin 125 1598.88 29 13 9 3 0.53
Walter G. Contra Magazin 125 1353.34 45 17 15 22 0.47
camillotorres Contra Magazin 63 1266.08 25 13 4 0 0.38
Incamas SRL- Asuncion Contra Magazin 9 378.56 305 12 0 0 0.35
Elisa Contra Magazin 51 940.63 164 9 0 0 0.34
Loup Contra Magazin 178 814.97 49 11 0 8 0.34
Herr Jeh Contra Magazin 253 646.04 15 12 0 8 0.34
ctzn5 Contra Magazin 137 308.75 49 15 0 5 0.3
Sachsenmädel Contra Magazin 112 279.71 42 11 0 3 0.3
Ø Total Contra Magazin 6.74 555.66 347 13.15 0.04 0.63 0.13
Name Platform Anzahl Länge Zeit Position Ähnlichkeit Interval Troll-Score
mogberlin Der Tagesspiegel 26 663.19 21 60 2 4 0.35
Adrenalin1 Der Tagesspiegel 23 784.04 29 192 4 0 0.29
civis42 Der Tagesspiegel 69 527.51 10 45 0 0 0.28
uwem. Der Tagesspiegel 69 263.49 72 78 0 1 0.28
feihung Der Tagesspiegel 32 372.38 21 51 0 4 0.26
kerrin Der Tagesspiegel 84 209.21 8 113 0 4 0.26
13ryce Der Tagesspiegel 20 641.45 22 32 0 0 0.24
1800 Der Tagesspiegel 10 250.8 23 63 0 0 0.24
2010ff Der Tagesspiegel 35 671.09 19 28 0 0 0.24
300 Der Tagesspiegel 13 NA 51 57 0 0 0.24
Ø Total Der Tagesspiegel 4.67 481.96 76 55.0 0.01 0.2 0.15
Name Platform Anzahl Länge Zeit Position Ähnlichkeit Interval Troll-Score
Tom F. Epoch Times 387 106.73 9 11 2 109 0.57
Marine P. Epoch Times 728 NA 3 12 17 0 0.55
AufgewachterWordpress.com Epoch Times 59 614.92 1 12 2 12 0.49
Anna E. Epoch Times 295 192.15 6 12 0 72 0.48
Tom H. Epoch Times 110 284.09 27 14 0 26 0.47
insomnia Epoch Times 126 190.93 27 10 0 43 0.46
Incamas SRL Epoch Times 85 NA 39 12 0 0 0.43
M.F.G Epoch Times 236 NA 14 12 4 0 0.43
Anna F. Epoch Times 211 171.1 12 10 0 35 0.42
Niemand und doch jemand Epoch Times 487 203.43 7 9 0 31 0.4
Ø Total Epoch Times 20.15 381.25 128 11.19 0.06 2.74 0.17
Name Platform Anzahl Länge Zeit Position Ähnlichkeit Interval Troll-Score
Dieter S. Focus Online 405 776.4 53 56 29 51 0.82
Manfred R. Focus Online 195 271.32 22 117 25 77 0.71
Joaquin V. Focus Online 114 421.64 24 147 12 29 0.57
Thomas H. Focus Online 214 632.24 99 62 2 41 0.54
Werner S. Focus Online 283 458.87 73 64 2 35 0.52
udo p. Focus Online 78 731.03 101 12 4 34 0.52
Rene W. Focus Online 226 353.67 95 31 2 34 0.51
Thomas W. Focus Online 315 363.71 68 55 2 32 0.49
Günter M. Focus Online 164 387.86 129 53 6 13 0.49
Christof K. Focus Online 516 431.5 20 40 0 68 0.48
Ø Total Focus Online 6.56 420.38 857 93.71 0.03 0.69 0.14
Name Platform Anzahl Länge Zeit Position Ähnlichkeit Interval Troll-Score
KritischeStimme Freie Welt 46 929.87 145 9 25 5 0.54
A.Riesener Freie Welt 43 454.93 113 18 16 4 0.53
SigismundRuestig Freie Welt 37 2467.27 148 8 26 2 0.52
Diederich H. Freie Welt 176 274.54 9 5 2 13 0.43
Karin W. Freie Welt 794 648.33 45 6 0 27 0.43
Klartexter Freie Welt 268 693.22 97 4 4 3 0.41
Alfred Freie Welt 362 263.12 31 7 2 6 0.39
Klaus K. Freie Welt 121 790.44 204 9 0 1 0.38
ropow Freie Welt 136 868.5 93 6 0 1 0.38
Emmanuel P. Freie Welt 40 527.67 127 6 3 0 0.33
Ø Total Freie Welt 5.64 597.74 930 10.84 0.04 0.22 0.12
Name Platform Anzahl Länge Zeit Position Ähnlichkeit Interval Troll-Score
Junge Freiheit 310 400.11 67 5 0 24 0.48
Werdomar Junge Freiheit 58 729.14 230 5 0 6 0.48
Otto O. Junge Freiheit 107 691.5 1183 5 0 54 0.45
Eckard E. Junge Freiheit 46 577.54 0 5 0 45 0.37
Willi K. Junge Freiheit 10 190.3 255 5 2 0 0.33
theGerman Junge Freiheit 14 983.79 927 5 0 9 0.28
Ralf B. Junge Freiheit 21 329.62 0 4 0 20 0.27
Eckart E. aus Bundeskasperländ Junge Freiheit 49 574.22 351 4 0 4 0.26
hundmitfrau Junge Freiheit 12 390.17 207 5 0 4 0.26
Ninja_Ny Junge Freiheit 19 372.84 626 6 0 4 0.26
Ø Total Junge Freiheit 3.59 504.7 2993 5.14 0.01 2.45 0.13
Name Platform Anzahl Länge Zeit Position Ähnlichkeit Interval Troll-Score
Norbert P. Neopresse 42 443.0 216 8 12 1 0.45
Steve Neopresse 70 522.23 85 21 0 1 0.37
AY Neopresse 92 220.47 11 27 0 18 0.36
OLLI Neopresse 134 379.3 94 28 0 18 0.36
Jürgen F. Neopresse 55 209.13 88 12 0 6 0.35
Mona Lisa Neopresse 1246 425.72 4 23 0 13 0.34
Drusius Neopresse 139 350.11 186 23 0 13 0.34
Eifelphilosoph Neopresse 64 290.34 351 30 0 16 0.34
Frankenberger Neopresse 21 391.29 152 21 0 0 0.33
neo Neopresse 54 540.89 96 19 0 1 0.33
Ø Total Neopresse 4.33 298.12 479 17.72 0.02 0.85 0.13
Name Platform Anzahl Länge Zeit Position Ähnlichkeit Interval Troll-Score
mr_comment RP Online 14 459.71 74 18 6 0 0.39
Bannany RP Online 76 323.3 17 13 2 1 0.37
Kommentar RP Online 24 1830.58 54 10 3 0 0.33
Schnauzkopf RP Online 23 306.3 50 13 2 1 0.33
BachMozart RP Online 77 342.74 17 10 0 4 0.3
RPMO1 RP Online 7 489.57 113 5 3 0 0.29
Hedonius RP Online 63 886.27 22 12 0 1 0.29
Wolfsaaper RP Online 71 274.01 19 15 0 0 0.28
Nightmare RP Online 77 254.09 17 11 0 0 0.28
Elisabeth52 RP Online 71 528.93 19 15 0 1 0.28
Ø Total RP Online 5.65 592.32 146 15.39 0.03 0.11 0.16
Name Platform Anzahl Länge Zeit Position Ähnlichkeit Interval Troll-Score
deckergs Die Welt 1226 170.82 28 183 12 128 0.71
Die Welt 240 310.97 111 71 2 108 0.63
Duwirsterschreckenihnzuhoeren Die Welt 14 1056.86 137 52 7 0 0.45
freeWilly10 Die Welt 248 149.23 126 141 0 75 0.44
CG Die Welt 424 289.21 13 188 0 98 0.44
Kritischer Bürger Die Welt 91 199.13 98 149 0 51 0.44
benedikt_kulap Die Welt 465 330.8 25 188 0 188 0.44
ebs Die Welt 201 226.61 38 195 0 51 0.44
mysteryhumpf Die Welt 276 229.94 23 169 0 153 0.44
Mario D. Die Welt 17 421.82 91 158 6 3 0.43
Ø Total Die Welt 4.52 333.92 1279 122.99 0.0 0.91 0.11
Name Platform Anzahl Länge Zeit Position Ähnlichkeit Interval Troll-Score
standpunkt Zeit Online 77 646.73 405 4 2 41 0.54
konjunkturbanause Zeit Online 57 257.21 88 3 3 39 0.49
atech Zeit Online 138 556.22 76 4 0 75 0.49
alexanders. Zeit Online 58 261.4 92 3 2 27 0.43
viereckgeflecht Zeit Online 53 361.81 12 3 0 47 0.42
der-goldene-reiter Zeit Online 51 238.45 13 3 0 42 0.4
teenriot Zeit Online 63 346.21 266 4 0 24 0.38
demetrios-i-p. Zeit Online 83 377.2 346 3 0 26 0.38
kopenhagen-love Zeit Online 45 380.98 29 5 0 36 0.38
ce300 Zeit Online 50 498.74 51 3 0 30 0.36
Ø Total Zeit Online 2.89 400.19 1172 3.78 0.0 1.67 0.14

Troll Stories

Volker S. ist seit dem 21.10.2015 auf der Plattform Compact Online aktiv. In der Zeit hat Volker S. 462 Kommentare geschrieben. Das sind 458 Kommentare mehr als ein durchschnittlicher Nutzer auf Compact Online.

Mit seinen Kommentaren ist Volker S. häufiger als Andere auf den vorderen Positionen unter den Artikeln und schreibt durchschnittlich alle zwölf Stunden einen Kommentar. Zusätzlich hat er insgesamt 18 Mal innerhalb von drei Minuten unter mehr als einen Artikel kommentiert. Das ist wesentlich häufiger als andere Nutzer auf Compact Online. Auch seine durchschnittliche Kommentarlänge liegt über dem Durchschnitt von anderen Nutzern auf Compact Online. Der größte Unterschied ist jedoch durch den Indikator Ähnlichkeit zu erkennen.

Anhand des Indikators Ähnlichkeit lässt sich schnell erkennen, dass Volker S. Copy & Paste verwendet. Von seinen 462 Kommentaren sind 134 nicht einzigartig. Zählt man nur die Kommentare, die Volker S. zum wiederholten Mal veröffentlicht hat, sind dies immer noch 77 Stück.

462
Kommentare
in insgesamt 227 Tagen
77
Duplikate
Jeder 6 Kommentar

Vergleich man die Ähnlichkeit von Volkers Kommentaren plattformübergreifend findet man fünf Kommentare, die ähnlich zu anderen Kommentaren sind. Alle fünf Kommentare sind Duplikate , die zuvor von dem Nutzer Werdomar auf der Plattform Junge Freiheit veröffentlicht wurden. Durch den Vergleich der Kommentare beider Nutzer fällt auf, dass deren Kommentare häufig mit demselben Satz enden:

„Im Übrigen bin ich dafür, daß der Euro zerstört werden muß!“

Der häufige gleiche letzte Satz, die fünf identischen Kommentare, und der Fakt, dass drei Tage nach dem letzten Kommentar von Werdomar, Volker S. seinen ersten Kommentar veröffentlicht, bestärken das Indiz, dass es sich bei Werdomar und Volker S. um die gleiche Person handelt.


Volker S. bedient sich gerne der Copy & Paste-Methodik zum Veröffentlichen von Kommentaren. Im Durchschnitt veröffentlicht Volker S. 53 Stunden nach Erscheinen eines Artikels einen Kommentar. Kopiert Volker S. hingegen einen seiner alten Kommentar, publiziert er diesen im Durchschnitt schon nach 12 Stunden erneut unter einen Artikel. Man könnte auch annehmen, ein Volker S. schläft nie, denn er veröffentlicht rund um die Uhr Kommentare.

Am 03.01.2016 veröffentlichte Walter G. seinen ersten Kommentar auf Compact Online zu einem Artikel vom 11.12.2014. Circa vier Monate später veröffentlicht Walter G. auf der online Plattform des Focus einen ähnlichen Kommentar. Es folgen weitere Kommentare unter anderem im Contra Magazin, welche alle ähnlich in ihrer Ausrichtung sind und immer mehr von den eigentlichen Themen der Artikel abweichen.

Hinzu kommt, dass der User GWalter kurze Zeit darauf ebenfalls damit beginnt, Kommentare, die bereits von Walter G. publiziert wurden, auf den Plattformen von Welt, Cicero und Epoch Times zu veröffentlichen.


Sowohl Walter G. als auch GWalter publizieren ähnliche Kommentare auf den bereits genannten Plattformen, wodurch sie hohe Werte für den Indikator Ähnlichkeit erreichen. Unter dem Artikel Flüchtlingskrise: Juncker stärkt Merkel den Rücken aus dem Contra Magazin und dem Artikel Deutschlands gesteuerte Presse - ein Geständnis auf Compact Online lassen sich die gleichen Kommentare identifizieren. Beide Kommentare sind zum gleichen Zeitpunkt 11:33 AM veröffentlicht worden.


Die anfängliche Inhaltsnähe ist bei Walter G. nach kurzer Zeit verflogen. Der Inhalt seiner Kommentare wirbt nur noch für eine andere Seite und zielt kein bisschen mehr auf eine Beteiligung an der Diskussion ab:

„Milliarden für Integration gefordert – Politik saugt die Deutschen restlos aus –>http://*********************** – Warum Arme arm bleiben und die Reichen reicher werden –> https://***********************“

Der Indikator für Ähnlichkeit sticht bei Walter G. besonders heraus. Er kopiert sehr gerne seine Kommentare vom Contra Magazin und veröffentlicht diese dann bei Compact Online.

Walter G. ist sehr schnell bei der Veröffentlichung von plattformübergreifenden Kommentaren. 20 der 38 Duplikate hat er mit einem Intervall von unter einer Minute publiziert. Im Durchschnitt über alle Kommentare liegen zwischen Duplikate und Original circa 18 Stunden.

Die Analyse der Indikatoren von JR erzeugt eine besondere Aufmerksamkeit für den Indikator Zeit. Denn JR schreibt durchschnittlich alle 3 Stunden und 59 Minuten einen Kommentar auf Compact Online. Mit diesem Verhalten hängt JR alle anderen Kommentatoren ab, denn er veröffentlicht wesentlich konsequenter und kontinuierlicher als alle anderen Kommentatoren. Eine genauere Betrachtung von JR auf der Plattform Compact Online, im Zeitraum vom 25-12-2015 bis zum 24-01-2016, summiert dieses Kontinuität auf ganze 181 Kommentare.

Ebenfalls ist der Indikator Ähnlichkeit für JR mit einer Anzahl von 25 deutlich über dem Durchschnitt. Die eigentliche Zahl an Duplikaten ist jedoch deutlich höher, da viele der Kommentare unter 10 Wörtern haben bzw. nur aus einem Link bestehen. Somit werden diese bei der Erhebung gesondert betrachtet, was zu dem Wert von 25 führt. Werden diese Kommentare jedoch mitgezählt, sind es 58 nicht einzigartige Kommentare bzw. 44 Duplikate unter den 181 Kommentaren. Fast jeder 4te Kommentar ist somit ein Duplikat.

181
Kommentare
in insgesamt 31 Tagen
44
Duplikate
Jeder 4 Kommentar

Auch hebt ein zweiter Blick auf die Kommentare hervor, dass 128 der 181 Kommentare einen Link enthalten der für die Diskussion keinen Mehrwert bietet. Daraus lässt sich ableiten, dass keiner dieser Kommentare zur Diskussion beitragen soll, sondern nur Werbung für andere Internetseiten ist. Ein beliebter Inhalt ist folgender:

„Ich auch! Raus aus dem Zinsgeld! http://*********** – WER HEILT, HAT RECHT“

Aufgrund des geringen Wertes für den Indikator Zeit betrachten wir die zeitliche Verteilung der Kommentare einmal genauer, um festzustellen, ob JR die hohe Anzahl an Kommentaren konstant über den Zeitraum veröffentlicht hat.


Doch die Kommentare von JR nur über einen geringen Zeitraum, sodass er auf 76 Kommentare innerhalb von drei Tagen kommt. Ungewöhnlich ist auch die für JR sehr geringe Anzahl an Duplikaten in diesem Zeitraum. Aus diesem Grund begutachten wir die Kommentare an diesem Tag einmal genauer. Es fällt auf, dass sich die Kommentare von den restlichen inhaltlich abgrenzen und anscheinend nicht zu der Diskussion beitragen.

„Herr Redel, sind sie evtl. Muslim ?“
„Nordpol ! Oder auf ne riesen Eisscholle…“
„Koks u. Torten….“

Hass-Wörterbuch

Wörter, die auf Hass und Kein-Hass hindeuten

Die klassische Hass-Erkennung basiert auf Klassifikationsverfahren aus dem Bereich des Supervised Learning. Je größer diese Sammlung ist, desto besser können später die Verfahren aus den Daten selbstständig lernen und die Texte schließlich automatisiert auswerten. Die gesammelten Kommentare und die zugehörigen Nutzerbewertungen bilden die Datengrundlage. Um aus diesen Daten ein Hass-Wörterbuch zu erstellen, werden die Kommentare in einzelne Wörter aufgetrennt, die dann klassifiziert werden. Das Wörterbuch gibt für jedes Wort einen Koeffizienten an, der die Wahrscheinlichkeit bestimmt, dass es in einem Hass-Kommentar enthalten ist.

Vorbearbeitung

Um die Präzision des Wörterbuchs zu erhöhen, werden die Wortlisten bereinigt. In einem ersten Schritt werden Sonderzeichen gelöscht und die deutschen Umlaute auf ihre Grundbuchstaben zurückgeführt (z.B. ä → ae, ß → ss). Es folgt die Anwendung von drei Mechanismen:

  1. die Reduzierung von Stoppwörtern,
  2. das Filtern der Wörter mittels TF-IDF und
  3. die Deduplikation mittels Lemmatisierung.

1. Stoppwörter

Stoppwörter sind häufig vorkommende Wörter, die aber für Erfassung und Analyse von Textinhalten keine signifikante Bedeutung haben. Typische Beispiele sind Füllwörter, Konjunktionen und die deutschen Artikel. Diese Wörter können für die Erstellung des Wörterbuches ignoriert werden. Wir nutzen zwei Quellen für unsere Liste an Stoppwörtern: Ein Paket des Natural Language Toolkit (NLTK) und das Paket von Alireza Savand.

Beispiel für verwendete Stoppwörter sind:
aber, bei, der, die, das, doch, ein, einer, eine, man, nach, oder, so, und, wie, zu

2. TF-IDF-Maß

Die Nutzung des TF-IDF-Maßes verfeinert den Stoppwort-Ansatz. Das Maß gewichtet die Wörter nach ihrer Vorkommenshäufigkeit. Über eine vorgegebene Schwelle werden die Wörter herausgefiltert, deren Gewichtung nicht hoch genug ist. Diese gefilterten Wörter haben eine zu geringen Einfluss auf Bewertung der Kommentare und werden demnach nicht weiter betrachtet. Durch die Verwendung von TF-IDF konnte die Vorhersagegenauigkeit des Wörterbuchs um ca. 2% verbessert werden.

Insgesamt lässt sich feststellen, dass es in unserer Kommentarsammlung zahlreiche Wörter gibt, die sehr selten vorkommen. Häufig vorkommende Wörter gibt es hingegen nur wenige. Von den ca. 17.000 Wörtern, gibt es fünf Wörter, die in über 10% der Kommentare vorkommen und 261 Wörter, die in über 1% der Kommentare vorkommen. Die fünf häufigsten Wörter in den Kommentaren mit Einfluss auf die Bewertung sind:

  • Merkel
  • Deutschland
  • schon
  • mehr
  • mal

3. Lemmatisierung

Lemmatization bezeichnet den Prozess, verschiedene Beugungsformen (Flexionen) eines Wortes auf ihren Wortstamm zurückzuführen. So wird erreicht, dass ein Wort nicht mehrfach in unterschiedlichen Beugungsformen für die Klassifikation genutzt wird. Stattdessen soll jedes Wort möglichst in nur einer Beugungsform genutzt werden, zum Beispiel:

  • Verbrechen, Verbrecher, Verbrechers, etc.
    werden auf den Wortstamm „Verbrech-“ zurückgeführt.
  • Fluechtling, Fluechtlinge, Fluechtlingen, etc.
    werden auf den Wortstamm „Fluechtling-“ zurückgeführt.

Es sollte beachtet werden, dass Wortkompositionen nicht von der Lemmatisierung betroffen sind. So wird zum Beispiel „Fluechtlingsheim“ weiter als eigenes Wort erkannt. Zur Durchführung der Lemmatisierung wird ein Algorithmus aus dem Snowball-Projekt verwendet.

Erstellung des Wörterbuchs

Für die Erstellung der Wörterbuchs können nicht alle gesammelten Kommentare genutzt werden, sondern nur jene für die Nutzerbewertungen (Hass oder Nicht-Hass ) vorliegen. Zum Trainieren des Klassifikationsalgorithmus wird nur eine Teilmenge der Daten verwendet. Die restlichen Daten dienen als so genanntes Test-Set, um Parameter festzulegen und eine Überanpassung des Verfahrens zu verhindern. Mit dem gelernten Modell lassen sich anschließend beliebige Kommentare auf ihre Hass-Wahrscheinlichkeit bewerten.

Wir verwenden ein "Bag-of-Words"-Modell. Dieses Modell reduziert jeden Kommentar auf seine einzelnen Wörter, so dass Satzstruktur und Grammatik nicht beachtet werden. Durch diese Technik, lässt sich nach Abschluss des Verfahrens auch ermitteln, welchen Einfluss einzelne Wörter auf auf die Hass-Prognose haben. Diese Einflussfaktoren werden Koeffizienten genannt. Wir haben die Koeffizienten extrahiert und ein Hass-Wörterbuch generiert.


Das Wörterbuch wurde auf Basis der bewerteten Kommentare generiert. Dies sind aber weniger als ein Prozent der insgesamt gesammelten Kommentare. Insgesamt gibt es also viele Wörter, die nicht im Wörterbuch aber in den Kommentartexten auftauchen. Da es für diese Wörter keine Bewertungen gibt, ist es nicht möglich einen Koeffizienten zu berechnen.

Um das Wörterbuch dennoch mit diesen Wörter zu ergänzen verwenden wir das Word2Vec Modell (Wort als Vektor). Das von Google entwickelte Verfahren kann auf allen Wörtern trainert werden und ist so in der Lage, ähnliche Wörter zu identifizieren. Dabei wird ein Model anhand von tausenden Kommentaren berechnet, welches jedes Wort in einen Vektor übersetzt. Vektoren von Wörtern mit ähnlicher Bedeutung liegen nah beieinander, z.B. „Merkel“ und „Bundeskanzlerin“. Zu jedem Wort wird die Ähnlichkeit anderer Wörter in Prozent angegeben. Mit Hilfe dieses Verfahrens können wir die Anzahl der Wörter im Wörterbuch erheblich vergrößern, um eine bessere Erklärbarkeit der Algorithmen zu erreichen. Die nachfolgende Grafik beschreibt die Funktionsweise von Word2Vec anhand eines fiktiven Beispiels im Kontext der gesammelten Kommentare.

Wir wenden das Word2Vec Verfahren nach ähnlichen Wörtern für jedes Wort in unserem initialen Wörterbuch an. Dabei wird die Prozentangabe der Ähnlichkeit mit dem Hass-Gehalt des Such-Worts verrechnet. Die ähnlichen Wörter werden mit verrechnetem Wert unserem Wörterbuch hinzugefügt. Als Ergebnis könnenwir die Anzahl der Wörter in unserem Wörterbuch erheblich erhöhen.

Vor Erweiterung
17
Tsd. Wörter
Nach Erweiterung
60
Tsd. Wörter

Klassifikation

Hass oder nicht Hass?

Im Supervised Learning beschreibt ein Klassifikationsproblem die Zuordnung von Daten zu vorher definierten Klassen. In diesem Fall handelt es sich um ein 2-Klassen-Problem, da ein Kommentar entweder in unserer Logik Hass oder keinen Hass enthält. Damit ein Computer diese Unterscheidung erkennen kann, muss man ihn „anlernen“.

Hierbei wird ein bewerteter Datensatz verwendet, auf Basis dessen der Computer selbstständig Muster erkennt und Regeln erstellt, welche als Ergebnis möglichst der Zielvariable (Hass oder kein Hass) entsprechen. Das Ergebnis hiervon ist ein Vorhersagemodell, welches Klassifikationen für neue Kommentare erstellen kann. Dem Model kann nun ein unbewerteter Kommentar übergeben werden und es klassifiziert diesen nach der Zielvariable.

In der Forschung ist die Klassifikation von Nutzer-generierten Kurztexten aus dem Internet (Tweets, Kommentare) ein relativ neues Forschungsfeld. Da Algorithmen im Allgemeinen lieber mit Zahlen statt Buchstaben arbeiten, müssen numerische Features aus dem Kommentar extrahiert werden. Die Herausforderung ist es, Features zu identifizieren, die den Inhalt des Kommentars möglichst umfassend abbilden. Bei der Auswahl von Features orientieren wir uns an einer Studie von Forschern der Yahoo Labs, die ähnliche Featuregruppen verwenden. Diese Feature-Gruppen fokussieren verschiedene Aspekte eines Kommentars und werden im folgenden beschrieben.

N-Grams

Die N-Gram Methode splittet Text in Buchstabenfragmente der Länge N. Für 2-Grams bedeutet das, dass der Text in Buchstabenfragmente der Länge Zwei zerlegt wird. Bei einem Alphabet mit 31 verschiedenen Zeichen (26 Buchstaben plus Umlaute plus Leerzeichen) ergeben sich 312 mögliche verschiedene Kombinationen von Zeichen (zb. ‘en’, ‘zx’, ’_d’ , ...).

Für die N-Gram Methode gilt die Hypothese, dass die Verteilung der N-Grams einen Kommentar gut aggregiert darstellt und ähnliche Kommentare, also auch ähnlicher Inhalt, eine ähnliche Verteilung an N-Grams hat. Trotz dieser auf den ersten Blick trivial erscheinender Methode, wurden in der Vergangenheit erstaunlich gute Ergebnisse im Bereich der Textanalyse erzielt.

{{printNGrams()}}

Word2Vec

Die N-Gram Methodik funktioniert sehr gut, solange Wörter eine gewisse syntaktische Ähnlichkeit aufweisen (z.B. „Kanzlerin“ und „Bundeskanzlerin“). Jedoch versagt sie, sobald semantisch gleiche aber syntaktischer vollständig verschiedene Wörter verglichen werden (z.B. „Bundeskanzlerin“ und „Merkel“). Mit dem Word2Vec-Modell können diese Abhängigkeiten berücksichtigt werden.

Um das Verfahren auf das Klassifizierungsproblem anzuwenden, wird für jedes Wort in einem Kommentar seine Vektordarstellung bestimmt. Der Algorithmus versucht nun, ein Muster in den gemittelten Vektoren zu erkennen, um zwischen Hass oder kein Hass zu entscheiden. Anschließend wird der Mittelwert aus allen bestimmten Vektoren ermittelt, um eine Repräsentation für den gesamten Kommentar zu erhalten.

Doc2Vec

Word2Vec ist ein mächtiges Verfahren, jedoch liegt die Stärke eher auf einzelnen Wörtern anstelle von ganzen Texten. Durch die Mittelung aller Vektoren gehen viele Informationen verloren, insbesondere die Reihenfolge der Wörter.

Doc2Vec (Dokument als Vektor) erweitert nun das Word2Vec Verfahren und erzeugt zusätzlich eine Vektordarstellung für jeden Kommentar als Ganzes. Es gilt die Hypothese, dass dieser Vektor den inhaltlichen Kontext abbildet und demnach Kommentare mit ähnlichem Kontext eine ähnliche Vektordarstellung haben.

Linguistics

Die linguistische Struktur eines Kommentars birgt wertvolle Kennzahlen, welche die eigentliche Aussage oder Inhalte nicht berücksichtigen. Die linguistischen Features1) sollen dies abbilden. Mit Hilfe von regulären Ausdrücken (RegEx) können diese Features mit geringem algorithmischen Aufwand leicht extrahiert werden. Zur Vergleichbarkeit zwischen Kommentaren müssen die Features noch relativ angepasst werden, d.h. die Anzahl von Ausrufezeichen in einem Kommentar mit 120 Zeichen nicht mit der Anzahl in einem Kommentar mit einer Länge von 1000 Zeichen vergleichbar.

Extended Grams

Um die Schwächen von Word2Vec und N-Grams zu beheben, wurde im Laufe des Projekts ein weiteres Verfahren entwickelt: Extended N-Grams.

Im ersten Schritt werden dazu für jeden Kommentar wichtige mithilfe des TF-IDF-Maß ermittelt. Anschließend mithilfe des Word2Vec-Models ähnliche Wörter identifiziert, die in den Kommentar künstlich hinzugefügt werden und somit den Kommentar erweitern. Je höher das TF-IDF-Maß, desto mehr ähnliche Wörter werden hinzugefügt. Auf Grundlage des erweiterten Kommentars werden dann erneut N-Grams bestimmt.

Supervised Learning Verfahren

Das Aussehen des Klassifikationsmodells ist vom verwendeten Verfahren abhängig. Wir vergleichen hier zwei bekannte Varianten, welche die besten Ergebnisse lieferten.

Statistische Lernverfahren werden üblicherweise in Klassifikations- und Regressionsverfahren unterschieden, welche sich durch eine qualitative oder quantitative Zielvariable unterscheiden. Regression ist ein statistisches Lernverfahren, welches in seiner einfachsten Form einen linearen Zusammenhang zwischen einer oder mehr erklärenden Variablen X und einem quantitativen Ergebnis Y annimmt. Dieses Ergebnis ist bei der logistischen Regression eine Wahrscheinlichkeit, die die Zugehörigkeit zu einer Klasse beschreibt. Aus diesem Grund wird dieses Regressionsverfahren auch zu den Klassifikationsverfahren gezählt.

Dieses Verfahren ist heute sehr populär durch eine einfache Anwendung und vorrangig zwei Eigenschaften: Es kann gut mit gewaltigen Datensätzen umgehen und liefert gute Ergebnisse, wenn die Anzahl der Features die der Samples übersteigt. Zur Trennung der beiden Klassen wird eine Hyperebene durch einen sehr hochdimensionalen Raum gezogen, der auf den übergebenen Features basiert. Die Ebene separiert Datenpunkte beider Klassen bestmöglichst. Durch den sogenannten Kernel-Trick werden die Berechnungen nicht zu aufwändig. Zur Berechnung dieser Ebene werden nur Datenpunkte in einer gewissen Nähe zu dieser benötigt, Diese Datenpunkte werden Support Vectors genannt.

Für das Erstellen des Klassifikationsmodels sollten beide Klassen ungefähr gleich häufig im Datensatz vorkommen. Da die Verteilung zwischen Hass und Nicht-Hass Kommentaren nicht gleichverteilt ist, muss der Datensatz vor dem Erlernen durch den Algorithmus angepasst werden.

Beim Upsampling wird die Menge der Nicht-Hass gelabelten Kommentare als Ausgangsbasis verwendet und aus hasserfüllten Kommentaren Kopien dem Datensatz hinzugefügt, sodass die Mengen gleich groß sind. Beim im Projekt verwendeten Downsampling wird die kleinere Menge (Hass-Kommentare) als Basis verwendet und nur so viele Nicht-Hass-Kommentare verwendet, dass sich ein gleiches Verhältnis ergibt.

Qualität der Vorhersagemodelle

Um zu ermitteln, welche Featuregruppen am besten zusammenarbeiten wurden wir die verschiedenen Kombinationen der Featuregruppen getestet und anhand der Genauigkeit (Accuracy), und dem F1-Measure verglichen. Zur Vermeidung von Überanpassung wurde wie schon bei der Wörterbucherstellung ein Trainings- und Testset im Verhältnis 75:25 verwendet.

Ein weit verbreitetes Maß zur Beurteilung von Klassifikatoren ist das F oder F1-Measure. Es berücksichtigt sowohl Präzision, als auch Trefferquote (Engl.: Precision, Recall). Das Ergebnis ist das harmonische Mittel aus den beiden Größen und kann im schlechtesten Fall 0 und im besten Fall 1 betragen.

$\mathbf{F_1 = 2 \cdot \frac{\large \text{Trefferquote} \ \cdot \ \text{Präzision}}{\large \text{Trefferquote} \ + \ \text{Präzision}}}$

Ein sehr einfaches Gütemaß für einen Klassifikator ist seine Genauigkeit (Accuracy). Sie ist das Verhältnis von korrekt klassifizierten Kommentaren zur Gesamtheit der klassifizierten Kommentare. Dem entsprechend wäre eine Genauigkeit von 50% bei zufälligem Raten zu erwarten, 100% immer eine richtige Vorhersage.

Feature-Gruppen können im Klassifikationsverfahren auch kombiniert werden. Die Selektion der Feature-Gruppen wurde daher schrittweise pro verwendetes Verfahren durchgeführt. Gestartet wurde mit nur einer möglichen Feature-Gruppe im Modell. Hier wurde die beste Feature-Gruppe selektiert und als Basis für den zweiten Schritt verwendet. Im zweiten Schritt wurde nun die beste Gruppe aus der ersten Auswahl verwendet und wieder alle übrigen Feature-Gruppen nacheinander durchprobiert und die beste selektiert.

Bei Anwendung der logistischen Regression auf das Hass-Wörterbuch konnten Vorhersagequoten von circa 68% /Accuracy) erreicht werden. Die besten Ergebnisse wurden bei logistischer Regression mit Word2Vec und erweiterten 2-Grams erzielt. Diese insgesamt 911 Features erreichten folgende Messwerte:

70.68 %
Genauigkeit
0.70
F1-Score


Unter Berücksichtigung der Einschränkungen unserer Datenerhebung werten wir die erreichte Genauigkeit von circa 70% als akzeptables Ergebnis. Die Yahoo-Labs Forscher, an denen wir uns orientiert haben, erreichten in einem ähnlichen Kontext allerdings deutlich bessere Quoten mit über 80%. Im Vergleich zum Projekt Cyberhate-Mining, standen bei Yahoo deutlich größere Datenmengen (> 1 Million) zum Erlernen und Testen der Algorithmen zur Verfügung. Unser Projekt basiert nur auf knapp 2.000 bewerteten Datensätzen. Dennoch konnte gezeigt werden, dass sich die algorithmischen Verfahren leicht auf deutsche Texte übetragen lassen. Wir sind zuversichtlich, die Genauigkeit in Zukunft in der Zusammenarbeit mit anderen Forschern sukzessive zu erhöhen, wenn mehr bewertete Lerndaten zur Verfügung stehen.

Für den Praxiseinsatz ist eine Genauigkeit von 70-80% jedoch problematisch und wird den hohen Qualitätsansprüchen von Zeitungsredaktionen kaum gerecht werden. Um eine möglichst gute Datenbasis zum Erlernen der Algorithmen zu erarbeiten, könnten Vorhersagemodelle möglichst großflächig erarbeitet werden (zum Beispiel im Zusammenarbeit von Medienunternehmen und Forschung). Insbesondere das gemeinsame Arbeiten an möglichst neutralen und belastbaren Datensätzen könnte die Vorhersagequalität verbessern. Es bleibt allerdings schwierig abzuschätzen, welche Qualität letztlich erreicht werden kann.

API

Live-Demo der entwickelten Verfahren

Es werden täglich neue Artikel zu polemischen Themen veröffentlich und viele Kommentare geschrieben. Für Mit unserer Datenbasis und der manuellen Bewertung konnten wir Vorhersagemodelle trainieren, mit denen sich auch neue Texte bewerten lassen. Um diese Überprüfungen möglichst effizient durchzuführen, wurde im Projekt Cyberhate-Mining auch eine Schnittstelle (API) konstruiert, welche von externen Anwendungen verwendet werden kann.

Die API ermöglicht es auch unsere werwendeten Methoden auf dieser Webseite direkt auszuprobieren. Dazu können Sie weiter unten auf der Webseite einen Text eingeben, für den anschließend getrennt vier verfügbare Modelle angewendet werden. Für größere Kommentarmengen ist auch eine Batch-Analyse möglich, bei der mehrere Kommentare zu einem Job zusammengefasst und parallel analysiert werden. So wäre die Einbindung von externen Datenbanken (beispielsweise in Medienunternehmen) theoretisch möglich.

Das Erstellen der Vorhersage funktioniert relativ schnell, weil wir unsere erstellten Vorhersagemodelle abspeichern und später wieder laden können. Die Modelle müssen nicht mit jeder Anfrage neu trainiert werden, was sehr lange dauern würde. Bei jeder Anfrage wird pro Modell in paralleler Verarbeitung eine Vorhersage getroffen und in einer Datenbank abgespeichert, von wo aus die API Anwendung die Ergebnisse auslesen kann. Selbst für einfache Analysen sind somit eine Vielzahl von Schritten notwendig, die in unterschiedlichen Programmen ausgeführt werden.

Ausprobieren

An dieser Stelle haben Sie die Möglichkeit interaktiv Kommentare zu analysieren. In der TextBox unten müssen Sie dazu einen Kommentar zwischen 200 und 2000 Zeichen eingeben und anschließend auf Auswerten klicken. Diese Einschränkungen bezüglich der Länge sind einerseits nötig, um eine sinnvolle Klassifizierung zu ermöglichen und andererseits um die Last auf unseren Servern klein zu halten. Einige Beispiel-Kommentare können Sie rechts neben der TextBox einfügen lassen.

In den Ergebnissen können Sie bei Klick auf einzelne Wörter, weitere Informationen anzeigen lassen. Dabei wird auch der Koeffizient angezeigt, den das Wort im Hass-Wörterbuch erhalten hat. Außerdem werden zehn ähnlichsten Worte nach der Word2Vec-Methode angezeigt.

  • Stoppwörter sind grau markiert
  • Wörter, die nach beiden wörterbuchbasierten Verfahren zu einer Hassbewertung beitragen, sind rot markiert. Dies bedeutet nicht, dass das Wort per sé hasserfüllt o.ä. ist, sondern dass es überdurchschnittlich häufig in den Kommentaren vorkommt, die im Rahmen der Bewertungsperiode als Hass klassifiziert wurden.
  • Wörter, die nach beiden wörterbuchbasierten Verfahren zu einer Nicht-Hassbewertung beitragen, sind grün markiert
  • Wörter, die beide wörterbuchbasierten Verfahren unterschiedlich bewerten, sind gelb markiert.

Wichtiger Hinweis

Bitte beachten Sie, dass es sich bei der Auswertung um eine automatische Analyse handelt, die fehlerbehaftet ist. Zum einen erreichen unsere verwendeten Verfahren nur circa 70% Genauigkeit. Zum anderen sind die Einschränkungen bei der Datengrundlage zu beachten. Die Algorithmen wurden auf einem spezifischen Text-Korpus mit Bezug zur Flüchtlingskrise trainert und können dementsprechend auch nur für Texte in diesem Kontext aussagekräftig sein. Sie werden zudem bemerken, dass die Verfahren unterschiedliche Ergebnisse liefern. Je mehr Verfahren auf Hass oder Kein-Hass hindeuten, desto größer ist die Wahrscheinlichkeit, dass dies auch die richtige Vorhersage ist. Für weitere Analysen werden zudem alle in die TextBox eingegebenen Kommentare sowie die Analyseergebnisse abgespeichert.

Aufgrund von Nacharbeiten sind derzeit nur Wörterbuch-basierte Verfahren verfügbar.

{{comment.length}}

Ergebnisse der Analyse

{{t(analyzes["dictionary-logistic-regression"].value.classLabel)}}
Logistische Regression (wörterbuchbasiert)
zu {{(analyzes["dictionary-logistic-regression"].value.certainty * 100) | number : 2}}% sicher
{{t(analyzes["dictionary-ridge-regression"].value.classLabel)}}
Ridge Regression (wörterbuchbasiert)
{{word}}

Bei der Analyse ist ein Fehler aufgetreten. Wir bitten dies zu entschuldigen. Sollte der Fehler dauerhaft auftreten, nehmen Sie bitte Kontakt zu uns auf.

Das Projekt

Hintergrundinformationen

Projektursprung

Dies ist ein studentisches Projekt im Rahmen des Master-Seminars Cyberhate-Mining am European Research Center for Information Systems im Fachbereich Wirtschaftsinformatik an der Westfälischen Wilhelms-Universität Münster. Die Seite verfolgt keine kommerziellen oder verurteilenden Absichten und ist nicht im Auftrag konkurrierender Firmen oder Interessengruppen entstanden.

Das Projekt wird betreut durch Steffen Höhenberger, Sebastian Köffer und Dennis Riehle. Die studentischen Projektmitglieder sind Christoph Ahlers, Alexander Brömmer, Daniel Carriola, Oliver Ester, Markus Heuchert, Joschka Hüllmann, Urs Merkel, Matthias Neugebauer, Marco Niemann, Thomas Pfeiffer, Philipp Reiter, Florian Runschke und Johannes Voscort. Das Seminar wurde in freundlicher Kooperation mit dem IFK Münster und MineMyText durchführt. Wir bedanken uns bei Oliver Müller, Julia Offe, Mike Preuß und Sören Schleibaum für das konstruktive Feedback, bei den Kollegen von AirBnb vs. Berlin für die Inspiration und bei Prof. Dr. Jörg Becker für den Freiraum, das Seminar in dieser Form durchzuführen.

Die in diesem Projekt verwendeten Tools und Technologien sind AngularJS, Apache HTTP Server, Bootstrap, Celery, Django, Django REST Framework, Docker, Doctrine, Font Awesome, Gitlab, HeidiSQL, Highcharts, JavaScript, jQuery, MariaDB, MathJax, MineMyText, MongoDB, MySQL, Odometer, Peewee, phpStorm, PyCharm, Python, Redis, Scrapy, Slack, Slick, SQLite, Stellar.js, uWSGI und Zend Frameworks.

Datenherkunft

Für das Projekt werden mit Hilfe von Web-Scraping Techniken Kommentare von Nachrichtenartikeln zur Flüchtlingsdebatte gesammelt. Dabei werden nur solche Kommentare gesammelt, die öffentlich verfügbar sind und dessen Indexierung durch die Seitenbetreiber nicht untersagt wurde (z.B. durch einen Hinweis in den AGBs oder mit Hilfe von robots.txt). Als Quellen dienen sowohl klassische journalistische Nachrichtenportale als auch alternative publizistische Webseiten. Mehr Details finden sich hier.

Diese Projekt-Webseite (inklusive API) wird niemals die gesammelten Daten gänzlich online verfügbar machen, sondern nur aggregierte Informationen bereitstellen. Bitte kontaktieren Sie uns, falls Sie Interesse an einer weiteren Verarbeitung der Quelldaten zu Forschungs- oder Publikationszwecken haben.

Copyright

Wir betonen ausdrücklich, für den Inhalt externer Links nicht verantwortlich zu sein und distanzieren uns ausdrücklich von allen Links.

Falls Sie vermuten, dass von dieser Website aus eines Ihrer Schutzrechte verletzt wird, teilen Sie das bitte umgehend per E-Mail mit, damit zügig Abhilfe geschafft werden kann.

Impressum und Kontakt

Für diese Seite gilt das Impressum des Instituts für Wirtschaftsinformatik der WWU Münster. Redaktionell verantwortlich für den Inhalt sind Steffen Höhenberger, Sebastian Köffer und Dennis Riehle. Für Anfragen aller Art, erreichen Sie das Projektteam unter der E-Mail .