Worauf ich hinaus will
Für den Fall, dass in der Diskussion zum Metablog nicht klar geworden ist worauf ich hinaus will, lohnt sich möglicherweise ein Blick auf den Screenshot. Auf den ersten Blick sieht es aus wie ein normaler Feedreader, auf den zweiten Blick fällt auf, dass zu jedem Eintrag ein weiterer angezeigt ist, der als ähnlich klassifiziert wurde.
Die Methode die Ähnlichkeit zu bestimmen ist noch nicht ganz astrein. Das liegt primär daran, dass ich in ein paar Stunden etwas zusammengeklopft habe, das bestenfalls als Studie durchgeht. Ein anderes Problem ist die geringe Menge an verarbeitetem Text. Die semantische Verarbeitung lebt erst richtig auf wenn ein grosser Wortschatz vorhanden ist. Bei aktuell 40 Artikeln ist da nicht viel zu wollen. Hinzu kommt, dass bei jedem Durchlauf neue Ähnlichkeiten herauskommen, das ist etwas, das mich meinem Algorithmus zweifeln lässt
Wer es noch nicht kennt, kann mal einen Blick auf rivva oder Techmeme werfen. Dort werden zwischen den Artikeln ähnliche Zusammenhänge erstellt, allerdings werden dort AFAIK vorwiegend die Links als Kriterium verwendet, nicht so sehr Begriffe.
So wie ich im Moment den Inhalt der RSS Feeds auswerte, ist es auch denkbar eigene Artikel einzubeziehen. Angenommen das angedachte Portal enthielte noch einen redaktionell betreuten Teil, könnte man zu den dort erschienen Artikeln Verweise zu thematisch ähnlichen Blogeinträgen erzeugen. Aber das ist noch Theorie, bevor das Verfahren zur Bestimmung der Ähnlichkeit nicht steht, muss noch ein wenig programmiert werden.
Weitere Artikel vom selben Autor

Horst schreibt:
Sowas ist sehr spannend. Hab ich schonmal die tdbengine erwähnt? Dort gibt es recht beeindruckende Volltextfähigkeiten. Aber Arbeit ist es trotzdem.
Ich habe für meine Blogs eine Routine, die ähnliche Beiträge über die Tags sucht. Das funktioniert überraschend gut. Bei normalen Text sollte man vorher noch die Wörter auf den Stamm zurück führen. Synonyme wären auch nicht schlecht. Da macht man schnell ein sehr großes Fass auf.
Think Positive – Bio Emma schreibt:
[...] ein (kleiner) Erfolg lässt einen sein Tagwerk zufrieden beenden. Dabei habe ich seit dem Versuch gestern keine grossartigen Änderungen vorgenommen, hauptsächlich mehr Artikel eingelesen und [...]
Michael Wenzl schreibt:
@Horst:
Wäre mir im Moment aber eine Geschichte zu viel in die ich mich einarbeiten muss.
In dem Zusammenhang hast Du tdbengine noch nicht erwähnt
Das Problem mit den tags ist, dass sie nicht jeder verwendet und bei denen, die es machen ist die Verschlagwortung nicht immer glücklich. Hinzu kommt, in einigen Feed fehlen die tags schlichtweg. Bei den meisten, wen nicht sogar allen, Feeds werden tags und Kategorien in einen Topf geworfen. Naja, die manchmal eigenwillige Interpretation von RSS ist eh ein Thema für sich.
Ein denkbarer Weg wäre die Artikel einheitlich zu Verschlagworten. Entweder alle Blogger auf ein Schema einschwören, was bestimmt nicht funktioniert, oder ein automatisiertes Verfahren anwenden. Für letzteres kenne ich nur Calais, das im Moment aber nur englische Texte untersützt.
Manual Memetracking – Bio Emma schreibt:
[...] ist da, die Zusammenhänge aus dem Text selbst herzustellen. Ein Stütze können, so wie Horst in einem Kommentar vorgeschlagen hat, vom Autor vergebene Schlagworte /tags) sein. Abgesehen davon, dass viele Blogs die tags nicht [...]
Frank Westphal schreibt:
Moin Michael! Interessante Geschichte, bin gespannt …
Keine Ahnung, ob Du gerne einen eigenen Memetracker/Aggregator aufbauen oder den “grünen” Themen einfach nur mehr Überblick verschaffen möchtest – falls Letzteres + Interesse, bin ich gern bereit mit Rivva nach Kräften mitzuhelfen. Sobald einige Grundprobleme beseitigt sind, sollen die thematischen Ressorts eh noch breiter gefasst werden.
Michael Wenzl schreibt:
Hi Frank,
)
grundsätzlich bin ich an beidem interessiert. Selbst daran herumbasteln läuft aber auf niedrigstem Niveau. Quasi als persönliche Fortbildungsmaßnahme, muss mich nach der Babypause wieder in die IT einfinden
Von daher ist es zielführender wenn da mit rivva was zu machen wäre. Gibt es da irgendwas, das ich tun kann? (nur um himmels willen nicht programmieren
Frank Westphal schreibt:
Hmm, schwierig … Irgendwann einmal soll sich jeder mit Rivva einen eigenen Memetracker zusammenklicken können. Dann könntest Du da einfach Deine Seed-Feeds einkippen und fertig.
Was bis dahin aber z. B. helfen würde, sind gute Quellen (eben genau diese Seed-Feeds), über die ich den Memetracker auf ein paar neue Fährten setzen könnte. Die Weinblogger haben so bspw. mitgeholfen, ein paar mehr Genussblogs in den Rivva-Pool zu spülen, weshalb man jetzt auch häufiger von diesen Themen liest.
Wenn Du also aus Deinem Ressort ein paar gute Blogs empfehlen möchtest, wäre das sicher ein erster guter Schritt. Bisher kennt Rivva da nur wenige, in etwa diese: http://rivva.de/events/KarmaKonsum
Michael Wenzl schreibt:
Die Liste sollte kein Problem sein. Lasse ich Dir die Tage zukommen.
Was hat es eigentlich mit den events auf sich, ist das speziell für Barcamps und dergleichen?
Meinst Du man könnte, so auf die Schnelle
, eine Art green-rivva basteln? Das Grundproblem ist glaube ich, dass grüne, nachhaltige, oder wie auch immer man es bezeichnen möchte, Themen in der Masse untergehen. Zudem sind viele Themen eher Langläufer und werden erst Tage später verlinkt, das ist wenn ich mich nicht ganz täusche etwas ausserhalb der Schwelle mit der rivva Meldungen auf der Startseite hat. Ich denke Deine Ressorts kommen so an das hin was mir vorschweben würde.
Frank Westphal schreibt:
Cool, freu ich mich drauf! (Email-Adresse hast Du ja …)
Ja, die Events-Sektion war mal zum leichteren Überblick übers Konferenzgeschehen gedacht, wird aber kaum genutzt – wahrscheinlich weil niemand dieses Problem hat oder Rivva die falsche Lösung anbietet.
Mit dem Green-Rivva sprichst Du genau an, woran ich zurzeit arbeite: Die acht Ressorts besitzen ganz unterschiedliche Merkmale (Artikelaufkommen, Aktualitätszeitfenster, usw.) Zur besseren Kalibrierung muss jeder dieser Themenkanäle seinen ganz eigenen Memetracker bekommen. Sobald ich das hab, möchte ich die Ressorts weiter aufteilen, was dann auch Platz für grüne Schlagzeilen schaffen würde.
Die Titelseite dagegen wird sich in den kommenden Wochen wahrscheinlich radikal ändern und soll dann nur noch das Beste aus den Themenressorts anteasern.
Ein Hamburger Kollege von mir, Ramon Wartala, hat einen interessanten News-Clusterer für “Green Headlines” entwickelt, trägt den Namen co2alarm, scheint aber gerade nicht am Netz zu sein oder ich habe die falsche URL.
Eine nachhaltige Liste tut Not – Bio Emma schreibt:
[...] Hintergrund ist, was einige vielleicht den Kommentaren entnommen haben, dass Frank Westphal, der Macher von rivva, sich ein grünes Ressort auf dem [...]
Ramon Wartala schreibt:
Hallo Michael,
unter co2alarm.com gibt es das Pre-Release des von Frank erwähnten News-Clusterings für grüne Nachrichten. Aktuell aggregieren wir ca. 90 Nachrichtenquellen jeden Tag. Die Frequenz und Anzahl ist noch nicht fest. Bewegt sich aber in den aktuellen Clusterings zwischen 800-2200 Nachrichten eines Monats bzw. der letzen 5-30 Tage. Zielgruppe sind englischsprachige Leserinnen und Leser, die sich einen schnellen, tagesaktuellen Themenüberblick verschaffen wollen oder müssen.