Germany – Database services – Datenzugang zur Twitterdatenbank
🇩🇪Universität der Bundeswehr München·Germany
Full Description
Die UniBw M beabsichtigt, im Rahmen des Projekts SPARTA einen Zugang zu Twitter-Daten zu beschaffen. Die UniBw M plant hierfür den Einkauf von Daten sowie der Programmier-schnittstellen, mit denen sie auf Daten von Twitter, insbesondere Tweets, zugreifen kann. Die UniBw M benötigt einen direkten und unmittelbaren Zugang zu historischen und Echtzeit-Rohdaten der Tweets, die weder aggregiert, noch vorverarbeitet sind und alle relevanten Metadaten enthalten. Nicht aggregierte Daten sind insoweit wesentlich, da nur diese im vollen Maße für die Forschungszwecke ausgeschöpft werden können. Die Twitter-Daten müssen in großen Mengen automatisiert über eine fest definierte programmierbare Schnittstelle abgerufen werden können. Reine Anzeige von Tweets mit allen Metadaten über eine Benutzeroberfläche, bei der eine menschliche Interaktion erforderlich ist, ist nicht ausrei-chend. Der automatisierte Abruf soll über die Schnittstelle in großen Batches von Tweets – im Falle der historischen Daten – und in Streams von Tweets – im Falle von Echtzeitdaten – an-hand der dedizierten Filterkriterien erfolgen, so dass diese Daten in weiteren Schritten maschinell verarbeitet und abgespeichert werden können. Darüber hinaus ist erforderlich, dass die Abfrage (Lookup) von einzelnen Tweets und Benutzern sowie deren Followern anhand eindeutiger ID möglich ist. Die bereitgestellte Schnittstelle muss fähig sein, die Daten in JSON-Format auszuliefern. Die Schnittstelle muss zudem ermöglichen, mittels offener und nicht proprietärer Protokolle zu kommunizieren (z.B. HTTP). Die ausgelieferten Tweets bzw. Benutzer müssen Datenfelder gem. der Twitter-Definition des Tweet- bzw. User-Objektes enthalten. Dabei sind bei den Tweets insbesondere hervorzuhe-ben: Textinhalte des Tweets (Kurznachricht), eingeschlossene Entities wie Hashtags, Medien, URLs etc.; Autordaten, Geolocation, Daten oder Referenz des originalen Tweets bei einem Retweet, Reply oder Quote etc. Zur Filterung der Daten im historischen und Echtzeitmodus muss das System eine dedizierte Sprache zur Bildung von Filterregeln anbieten. Diese Abfragesprache (Query Language) muss neben den Operatoren zum Filtern nach Hashtags und Textausdrücken auch diverse andere Operatoren unterstützen: Abfrage von binären Eigenschaften (Bsp: Ist Retweet, Hat Geolocation etc.), Filtern nach erkannter Sprache des Tweets und der Geolocation nach Na-men (Bsp: Land, Region etc.) und Radius, Abfrage von erkannten Eigennamen für Personen und Orten (Named-entity), Zähleroperatoren (z.B. Anzahl der Tweets des Autores) u.w. Die Filter-Operatoren müssen mit booleschen Operatoren UND / ODER / NICHT gruppiert wer-den können, so dass deren Verbindung eine Filterregel mit einer maximalen Länge von ca. 2000 Zeichen ergeben kann. Das System muss fähig sein, mehrere gleichzeitige 100 Filterregeln für jeden Batch im Rahmen der historischen Abfragen und mehrere 1000 Filterregeln für jede einzelne Streaming-Verbindung im Rahmen der Echtzeitabfragen verarbeiten zu können. Die Filterregeln müssen einen eindeutigen Bezeichner tragen können, so dass nach der Ab-frage ersichtlich ist, welcher Tweet durch welche Regel eingeholt wurde. Im Hinblick auf den Datendurchsatz muss die Schnittstelle für die historischen Daten bis zu 50 Abfragen pro Tag erlauben sowie mindestens 2 gleichzeitig laufende Abfragen bedienen können. Die Schnittstelle für Echtzeitdaten sollte bis zu 50 gleichzeitige aktive Streaming-Verbindungen bedienen. Die UniBw M muss mittels der APIs spontan und flexibel auf gegenwärtige Entwicklungen reagieren und neue Keywords und Hashtags in die API-Abfrage minutiös einspeisen können. Die geladenen Daten müssen unmittelbar und direkt in die internen Analysepipelines eingeführt werden können. Eine historische Langzeitbetrachtung der Twitter-Daten, insbesondere von Tweets, seit der Gründung von Twitter 2006, sowie das Abrufen von Echtzeit-Tweets muss im großen Umfang (> 10 Mio. Tweets pro Monat) möglich sein. Daten-Löschkonzepte müssen umsetzbar sein, die den Löschanforderungen von Twitter entsprechen.