Bulldog Blog

sniffing around investigative reporting

Webscraping – saugen aus dem Netz

Datenjournalismus braucht Daten, wenn die nicht direkt von Behörden und Organisationen abgerufen werden können, behelfen sich US-Rechercheure mit dem sogenannten Webscraping. Programmierte Roboter oder Spider laden systematisch Informationen von Webseiten herunter. Doch die Journalisten sind damit längst nicht allein, wie ein faszinierender Artikel im Wallstreet Journal zeigt. Längst greifen spezialisierte Firmen im Auftrag gezielt Webinhalte aus Foren, Online-Datenbanken oder Social Networks ab, kombinieren die Informationen mit anderen öffentlichen Datensätzen und stellen teilweise gezielt Personenprofile zusammen.

Was kompliziert klingt, ist es nicht wirklich, es sei denn, die Betreiber der Webseiten kümmern sich gezielt um ihre Verteidigung, wie die Zeitung schildert:

Scraping often is a cat-and-mouse game between websites, which try to protect their data, and the scrapers, who try to outfox their defenses. Scraping itself isn’t difficult: Nearly any talented computer programmer can do it. But penetrating a site’s defenses can be tough.

Dieses Informations-Saugen ist aus Sicht des privaten Internetnutzers absolut spooky, kann für Journalisten aber der letzte Ausweg sein. Nehmen wir das Beispiel Agrarsubventionsempfänger in Deutschland: Es gibt eine offizielle Suchmaske, aber die ist so gestaltet, dass man sich maximal  1500 Suchergebnisse anzeigen lassen kann – bei rund 300 000 Empfängern in Deutschland! Deshalb macht sich jedes Jahr eine Gruppe von Datenjournalisten und Agrarexperten von farmsubsidy.org die Mühe, die Daten zu scrapen und den Komplettdatensatz Rechercheuren zu Verfügung zu stellen. Denn nur darauf lässt sich eine wirklich umfassende journalistische Auswertung aufsetzen.

Advertisements

Einsortiert unter:CAR, Handwerk, , ,

Dieser Wachhund interessiert sich für bissigen Journalismus, den es Experten zufolge in Deutschland gar nicht gibt, der trotzdem immer weniger wird, aber für die Demokratie unerlässlich ist: Investigativen Journalismus. Das Blog will "best practice" Beispiele aus dem deutschen und anglo-amerikanischen Raum zeigen, handwerkliche Kniffe vermitteln und zur Diskussion über Recherche anregen. Der Autor, Lars-Marten Nagel, arbeitet als freier Reporter, Rechercheur und Recherchetrainer in Hamburg und mag vor allem eines: Gut recherchierte Geschichten.