Bulldog Blog

sniffing around investigative reporting

Webscraping – saugen aus dem Netz

Datenjournalismus braucht Daten, wenn die nicht direkt von Behörden und Organisationen abgerufen werden können, behelfen sich US-Rechercheure mit dem sogenannten Webscraping. Programmierte Roboter oder Spider laden systematisch Informationen von Webseiten herunter. Doch die Journalisten sind damit längst nicht allein, wie ein faszinierender Artikel im Wallstreet Journal zeigt. Längst greifen spezialisierte Firmen im Auftrag gezielt Webinhalte aus Foren, Online-Datenbanken oder Social Networks ab, kombinieren die Informationen mit anderen öffentlichen Datensätzen und stellen teilweise gezielt Personenprofile zusammen.

Was kompliziert klingt, ist es nicht wirklich, es sei denn, die Betreiber der Webseiten kümmern sich gezielt um ihre Verteidigung, wie die Zeitung schildert:

Scraping often is a cat-and-mouse game between websites, which try to protect their data, and the scrapers, who try to outfox their defenses. Scraping itself isn’t difficult: Nearly any talented computer programmer can do it. But penetrating a site’s defenses can be tough.

Dieses Informations-Saugen ist aus Sicht des privaten Internetnutzers absolut spooky, kann für Journalisten aber der letzte Ausweg sein. Nehmen wir das Beispiel Agrarsubventionsempfänger in Deutschland: Es gibt eine offizielle Suchmaske, aber die ist so gestaltet, dass man sich maximal  1500 Suchergebnisse anzeigen lassen kann – bei rund 300 000 Empfängern in Deutschland! Deshalb macht sich jedes Jahr eine Gruppe von Datenjournalisten und Agrarexperten von farmsubsidy.org die Mühe, die Daten zu scrapen und den Komplettdatensatz Rechercheuren zu Verfügung zu stellen. Denn nur darauf lässt sich eine wirklich umfassende journalistische Auswertung aufsetzen.

Advertisements

Einsortiert unter:CAR, Handwerk, , ,

Round-Up Datenjournalismus

Mike McGraw, 2005 in der Redaktion der Kansas City Star

Es war ein erster Meilenstein des Datenjournalismus: 1992 gewannen Jeff Taylor and Mike McGraw vom Kansas City Star den Pulitzer-Preis mit einer kritischen Geschichte zum US-Landwirtschaftsministerium. Darin ging es unter anderem um die Subventionsvergabe. Mit Hilfe einer Computer-Auswertung von Daten (damals noch auf Lochkarten) konnten die beiden zeigen, dass nicht die Farmer sondern Großkonzerne, Banken und Casinos in Indianerreservaten die meisten Landwirtschaftssubventionen erhielten. Das Beispiel zeigt, der „Data Driven Journalism“ und das „Computer-Assisted Reporting“ (CAR) blicken im anglo-amerikanischen Raum auf mehr als 20 Jahre Geschichte und Geschichten zurück.

Vielleicht ist das der Grund, warum sich amerikanische und britische Medien viel intensiver der Datenrecherche widmen. In Europa arbeiten in dem Fachgebiet nur noch Skandinavier und ein paar Einzelkämpfer, zumeist Recherchetrainer. Für Deutschland gilt, Datenjournalismus ist eine zarte Pflanze: Aber die Zahl der Gärtner nimmt langsam zu.

Tatsächlich haben die Journalisten seit kürzerem einen neuen und für auf Exklusivität bedachte Rechercheure unwahrscheinlichen Bündnispartner: die Open-Data-Bewegung, die sich langsam formiert und möglichst viele Regierungs- und Behördendaten „befreien“ will, um so Transparenz für die Bevölkerung zu erreichen.

Die Allianz kann fruchtbar werden, denn nur mit immer mehr Anfragen und ggf. Klagen werden sich Regierungseinrichtungen dazu bewegen lassen, Daten freizugeben. Die Partner schließen sich auch nicht grundsätzlich aus, denn sind die Daten erst einmal öffentlich ist es immer noch eine Frage der Auswertungskompetenz, daraus exklusive Geschichten zu gewinnen. In den USA wetteifern die Redaktionen, wer den besten Datenscoop recherchiert – nicht selten findet man Teams von Programmierern, Rechercheuren und Autoren.

Ich möchte an dieser Stelle auf eine paar zentrale Netz-Fundstellen zum Datenjournalismus aufmerksam machen, sozusagen als Round-Up im ersten Post dazu.

Datenjournalismus und Hintergrund:

Skepsis zur Finanzierbarkeit des Datenjournalismus äußerte kürzlich die Netzpresse Online. Ein wirklich gutes Blog zum Thema schreibt derzeit Lorenz Matzat. Und warum selbst eine Nachrichtenagentur um Datenjournalismus nicht herum kommt, erklärt Christoph Dernbach von der dpa-InfoCom im Deutschland Radio Kultur.

Beispiele und „best practice“:

Führend ist in Europa zurzeit sicherlich das Data-Blog des Guardian, hier geht es nur um Daten, Fakten und deren Visualisierung. Herausragend ist beim Guardian unter anderem die Umsetzung des Wikileaks-Scoops dieses Sommers. So präzise, so umfassend. In Deutschland deutet das ZDF-Parlameter an, was in Zukunft möglich sein wird. Bemerkenswert ist auch die Guantanamo-Datenbank der New York Times. Jeder Inhaftierte ist dort verzeichnet und mit Dokumenten zur Person verlinkt. Der Data Desk der L.A. Times präsentiert einige starke visuell-interaktive Umsetzungen von Datenmaterial online, etwa die Morde in der Stadt der Engel. Übrigens, fast 20 Jahre nach McGraws Pulitzer Preis finden sich ähnliche Erkenntnisse zu Landwirtschaftssubventionen bei Farmsubsidy.org – nur eben für Europa.

Einsortiert unter:CAR, Handwerk, , , , , , , , , ,

Dieser Wachhund interessiert sich für bissigen Journalismus, den es Experten zufolge in Deutschland gar nicht gibt, der trotzdem immer weniger wird, aber für die Demokratie unerlässlich ist: Investigativen Journalismus. Das Blog will "best practice" Beispiele aus dem deutschen und anglo-amerikanischen Raum zeigen, handwerkliche Kniffe vermitteln und zur Diskussion über Recherche anregen. Der Autor, Lars-Marten Nagel, arbeitet als freier Reporter, Rechercheur und Recherchetrainer in Hamburg und mag vor allem eines: Gut recherchierte Geschichten.