Bulldog Blog

sniffing around investigative reporting

Frag den Fachmann – oder belausche ihn

Datenjournalismus hat – wie nun mehrfach beschrieben – noch einiges Entwicklungspotential in Deutschland. Wo können sich Interessierte nun Anregungen und Tipps holen sowie ggf. auch mal einen Fachmann fragen?

Das amerikanische National Institut for Computer-Assisted Reporting (kurz NICAR) hat dafür vor Jahren eine Mailingliste aufgebaut, mit deren Hilfe sich die CAR-Experten jenseits des Atlantiks austauschen.

Einmal abonniert, erhält man zwischen 5 und 10 Emails am Tag, in denen Fachleute Fragen stellen und andere Fachleute diese wiederum beantworten, Tipps und Hilfestellung geben. Teilweise entspinnen sich sogar längere Diskussionen.

Das Themenspektrum reicht von Empfehlungen für CAR-Handbücher über Tipps zur Perl-Programmierung und zur Datenbeschaffung bis hin Anweisungen, wie man mit Hilfe von Webapplikationen „Bubble Charts“ erstellt. Kurzum, die Mailingliste ist eine Fundgrube! Wo sonst kann man Dialoge der CAR-Experten mitlesen und selbst Fragen und Meinungen dazwischen werfen?

Wegen des hohen Mailaufkommens sortiert man am besten die Mails beim Posteingang in einen eigenen Ordner.

Für die Anmeldung muss man eine Mail an – listserv@lists.missouri.edu – schicken mit folgenden Inhalt: „subscribe IRE-L your-name“. Alles Weitere und die Lösung im Fall von Problemen hier.

Einsortiert unter:CAR, Handwerk, , , ,

Webscraping – saugen aus dem Netz

Datenjournalismus braucht Daten, wenn die nicht direkt von Behörden und Organisationen abgerufen werden können, behelfen sich US-Rechercheure mit dem sogenannten Webscraping. Programmierte Roboter oder Spider laden systematisch Informationen von Webseiten herunter. Doch die Journalisten sind damit längst nicht allein, wie ein faszinierender Artikel im Wallstreet Journal zeigt. Längst greifen spezialisierte Firmen im Auftrag gezielt Webinhalte aus Foren, Online-Datenbanken oder Social Networks ab, kombinieren die Informationen mit anderen öffentlichen Datensätzen und stellen teilweise gezielt Personenprofile zusammen.

Was kompliziert klingt, ist es nicht wirklich, es sei denn, die Betreiber der Webseiten kümmern sich gezielt um ihre Verteidigung, wie die Zeitung schildert:

Scraping often is a cat-and-mouse game between websites, which try to protect their data, and the scrapers, who try to outfox their defenses. Scraping itself isn’t difficult: Nearly any talented computer programmer can do it. But penetrating a site’s defenses can be tough.

Dieses Informations-Saugen ist aus Sicht des privaten Internetnutzers absolut spooky, kann für Journalisten aber der letzte Ausweg sein. Nehmen wir das Beispiel Agrarsubventionsempfänger in Deutschland: Es gibt eine offizielle Suchmaske, aber die ist so gestaltet, dass man sich maximal  1500 Suchergebnisse anzeigen lassen kann – bei rund 300 000 Empfängern in Deutschland! Deshalb macht sich jedes Jahr eine Gruppe von Datenjournalisten und Agrarexperten von farmsubsidy.org die Mühe, die Daten zu scrapen und den Komplettdatensatz Rechercheuren zu Verfügung zu stellen. Denn nur darauf lässt sich eine wirklich umfassende journalistische Auswertung aufsetzen.

Einsortiert unter:CAR, Handwerk, , ,

How to be a data journalist?

Kurz verlinkt: How to be a data journalist? – Die Antwort gibt Paul Bradshaw im Data Blog des Guardian mit guten Tipps zu Werkzeugen. Deutschland hängt dazu im Vergleich doch deutlich hinterher, wie am Mittwoch das ScoopCamp der dpa in Hamburg wieder zeigte. Aron Philhofer vom Data Desk der New York Times führte einige gute Beispiele vor. Er betonte aber: „Wir müssen noch besser werden.“ Für Deutschland gilt wohl eher: Wir müssten mal mit Datenjournalismus anfangen.

Einsortiert unter:CAR, Handwerk, , , , , ,

Round-Up Datenjournalismus

Mike McGraw, 2005 in der Redaktion der Kansas City Star

Es war ein erster Meilenstein des Datenjournalismus: 1992 gewannen Jeff Taylor and Mike McGraw vom Kansas City Star den Pulitzer-Preis mit einer kritischen Geschichte zum US-Landwirtschaftsministerium. Darin ging es unter anderem um die Subventionsvergabe. Mit Hilfe einer Computer-Auswertung von Daten (damals noch auf Lochkarten) konnten die beiden zeigen, dass nicht die Farmer sondern Großkonzerne, Banken und Casinos in Indianerreservaten die meisten Landwirtschaftssubventionen erhielten. Das Beispiel zeigt, der „Data Driven Journalism“ und das „Computer-Assisted Reporting“ (CAR) blicken im anglo-amerikanischen Raum auf mehr als 20 Jahre Geschichte und Geschichten zurück.

Vielleicht ist das der Grund, warum sich amerikanische und britische Medien viel intensiver der Datenrecherche widmen. In Europa arbeiten in dem Fachgebiet nur noch Skandinavier und ein paar Einzelkämpfer, zumeist Recherchetrainer. Für Deutschland gilt, Datenjournalismus ist eine zarte Pflanze: Aber die Zahl der Gärtner nimmt langsam zu.

Tatsächlich haben die Journalisten seit kürzerem einen neuen und für auf Exklusivität bedachte Rechercheure unwahrscheinlichen Bündnispartner: die Open-Data-Bewegung, die sich langsam formiert und möglichst viele Regierungs- und Behördendaten „befreien“ will, um so Transparenz für die Bevölkerung zu erreichen.

Die Allianz kann fruchtbar werden, denn nur mit immer mehr Anfragen und ggf. Klagen werden sich Regierungseinrichtungen dazu bewegen lassen, Daten freizugeben. Die Partner schließen sich auch nicht grundsätzlich aus, denn sind die Daten erst einmal öffentlich ist es immer noch eine Frage der Auswertungskompetenz, daraus exklusive Geschichten zu gewinnen. In den USA wetteifern die Redaktionen, wer den besten Datenscoop recherchiert – nicht selten findet man Teams von Programmierern, Rechercheuren und Autoren.

Ich möchte an dieser Stelle auf eine paar zentrale Netz-Fundstellen zum Datenjournalismus aufmerksam machen, sozusagen als Round-Up im ersten Post dazu.

Datenjournalismus und Hintergrund:

Skepsis zur Finanzierbarkeit des Datenjournalismus äußerte kürzlich die Netzpresse Online. Ein wirklich gutes Blog zum Thema schreibt derzeit Lorenz Matzat. Und warum selbst eine Nachrichtenagentur um Datenjournalismus nicht herum kommt, erklärt Christoph Dernbach von der dpa-InfoCom im Deutschland Radio Kultur.

Beispiele und „best practice“:

Führend ist in Europa zurzeit sicherlich das Data-Blog des Guardian, hier geht es nur um Daten, Fakten und deren Visualisierung. Herausragend ist beim Guardian unter anderem die Umsetzung des Wikileaks-Scoops dieses Sommers. So präzise, so umfassend. In Deutschland deutet das ZDF-Parlameter an, was in Zukunft möglich sein wird. Bemerkenswert ist auch die Guantanamo-Datenbank der New York Times. Jeder Inhaftierte ist dort verzeichnet und mit Dokumenten zur Person verlinkt. Der Data Desk der L.A. Times präsentiert einige starke visuell-interaktive Umsetzungen von Datenmaterial online, etwa die Morde in der Stadt der Engel. Übrigens, fast 20 Jahre nach McGraws Pulitzer Preis finden sich ähnliche Erkenntnisse zu Landwirtschaftssubventionen bei Farmsubsidy.org – nur eben für Europa.

Einsortiert unter:CAR, Handwerk, , , , , , , , , ,

Abgeordnete und Rüstungsvereine

Schön, wenn alte Recherchen wieder aufgegriffen werden. Das Transparenzportal Abgeordnetenwatch thematisiert gerade die Nähe zwischen dem Abgeordneten Gerd Höfer (SPD) und der Rüstungslobby. 2009 hatten Datenrechercheure der Nachrichtenagentur dpa aufgedeckt, dass sich fünf Abgeordnete in rüstungsnahen Vereinen engagierten ohne das der Öffentlichkeit mitzuteilen – also ihren Transparenzpflichten im Bundestag nachzukommen.

Ich möchte kurz schildern, wie wir auf die Geschichte aufmerksam wurden, weil die Methode dem Datenjournalismus entstammt, der gerade versucht, als zartes Pflänzchen in Deutschland zu blühen. Weder die Vereine noch die Abgeordneten hatten wir vorher auf dem Radar, wir stießen auf sie, weil wir mit Hilfe des Computer-Assisted Reporting (CAR) auf Fischzug gingen.

Die Idee war einfach: Wir wollten ermitteln, wie viele Namen der rund 600 Bundestagsabgeordneten auch im Verzeichnis der Liste der registrierten Lobbyisten auftauchen – an sich schon eine Skurrilität, dass Volksvertreter auch als Vertreter von Verbänden und Vereinen geführt werden (Firmenlobbyisten und Kanzleien sind in dem Verzeichnis erst gar nicht enthalten).

Im Prinzip mussten nur zwei Listen verglichen werden, in der Praxis war dafür ein programmierter Roboter und viel Geduld von Nöten. Mit sogenanntem Webscraping (Mining-Software: Mac „Anthracite“ und Microsoft „OpenKapow“) las ein Kollege die Namen und Daten der Abgeordneten von der Bundestagswebseite aus. Gleiches geschah mit der Lobbyliste. Die gewonnenen Informationen mussten dann in Access und Excel und angepasst werden.

Insgesamt konnten wir rund 1900 Namen von der Lobbyliste extrahieren. Und wir fanden 111 Übereinstimmungen mit Namen von Mitgliedern des Bundestags (MdB), die wir nun einzeln nachprüften, weil bei Namensvergleichen die Schreibweisen, Abkürzungen, Titel hinderlich sind und natürlich Fehlzuordnungen etwa bei „Christian Schmidt“ auftauchen können.

Aber: 111 Namen kann man sich in überschaubarer Zeit einzeln anschauen, 1900 im PDF der Lobbyliste hingegen nicht. Bei der weiteren Recherche stießen wir auf die Vereine Deutsche Gesellschaft für  Wehrtechnik e.V. (DWT), Gesellschaft für Wehr- und Sicherheitspolitik e.V. (DfW) und Förderkreis Heer e.V. in deren Präsidien und Vorständen viele Abgeordnete saßen. Die Einzelfall-Prüfung zeigte dann, dass fünf ihre Tätigkeiten beim Bundestag nicht angezeigt hatten. Wir schrieben sie an, ihre Antworten zeugten von Ignoranz der Regeln oder schlicht Unwissen – sofern man nicht Absicht unterstellen will. Ein kleiner Scoop!

Insgesamt arbeiteten zwei Kollegen drei Wochen an dem Projekt – on and off – neben der eigentlichen Arbeit. Der Aufwand hat sich gelohnt. Der Text wurde fast in allen wichtigen Zeitungen gedruckt oder online aufgegriffen, wie die kleine Liste zeigt: Handelsblatt, Süddeutsche Zeitung, Tagesspiegel, Kölnische Rundschau, Frankfurter Rundschau, ntv und schließlich wurde das Ergebnis auch von Lobbywächtern übernommen.

In den genannten drei Vereinen waren weitere MdB tätig, die ihre Tätigkeit vorschriftsmäßig veröffentlicht hatten. Darunter Landwirtschaftsministerin Ilse Aigner (CSU, Präsidium Förderkreis Heer), Bernd Siebert (CDU, Präsidium Förderkreis Heer und Präsidium DWT), Jörg van Essen (FDP, Vorstand Förderkreis Heer und Präsidium DWT), Kurt J. Rossmanith (CSU, Präsidium DWT), Thomas Kossendey (CDU, Vizepräsident DWT) und Ulrike Merten (SPD, Vorstandsmitglied der DWT).

Hinterfragen sollte man diese Vereine deshalb wohl um so mehr – auch weil sie den Eindruck erwecken, dass dort Regierung, Parlament, Bundeswehr und Rüstungslobby hinter verschlossenen Türen kungeln.

Einsortiert unter:CAR, Handwerk, , , , , ,

Dieser Wachhund interessiert sich für bissigen Journalismus, den es Experten zufolge in Deutschland gar nicht gibt, der trotzdem immer weniger wird, aber für die Demokratie unerlässlich ist: Investigativen Journalismus. Das Blog will "best practice" Beispiele aus dem deutschen und anglo-amerikanischen Raum zeigen, handwerkliche Kniffe vermitteln und zur Diskussion über Recherche anregen. Der Autor, Lars-Marten Nagel, arbeitet als freier Reporter, Rechercheur und Recherchetrainer in Hamburg und mag vor allem eines: Gut recherchierte Geschichten.