März 2024

Lecture Video Retrieval-Augmented Generation Framework

Projektübersicht Dieses Projekt beschäftigt sich mit der Verbesserung automatischer Beantwortung von Fragen innerhalb von Lehrvideos durch Entwicklung eines multimodalen Retrieval-Augmented-Generation-(RAG)-Frameworks. Aufgrund der rasanten Zunahme von Online-Lehrvideos haben Lernende zunehmend Schwierigkeiten, gezielte Informationen schnell zu finden.

Cover Photo

Ziele

  • Effiziente Informationsfindung: Präzise Antworten sowohl innerhalb großer Vorlesungssammlungen als auch innerhalb einzelner Videos schnell auffindbar machen.
  • Multimodale Integration: Nutzung von auditiven und visuellen Daten.
  • Fragen beantworten: Statt nur relevante Videosegmente zu finden, konkrete Antworten basierend auf Video-Inhalten generieren.

Lösung

  1. Fortschrittliches multimodales RAG-Framework: Entwicklung eines ausgeklügelten Retrieval-Mechanismus, der Audiotranskripte (ASR) und extrahierte visuelle Texte (OCR) kombiniert, um umfassenden Kontext zu gewinnen.

System Diagram

  1. Kontextuelles Re-Ranking: Integration eines Schritts zur Priorisierung relevanter Kontexte, um die Genauigkeit und Relevanz der generierten Antworten zu verbessern.

  2. Interaktive Benutzeroberfläche: Entwicklung einer prototypischen Benutzeroberfläche, mit der Lernende Fragen stellen und detaillierte Antworten samt der relevanten Videosegmente erhalten.

Interaktive Benutzeroberfläche

Ergebnisse

  • Verbesserte Antwortqualität: Deutlich bessere Leistung als traditionelle eigenständige Sprachmodelle durch multimodale Kontextintegration.
  • Gesteigerte Effizienz: Verkürzte Zeit bei der Informationssuche innerhalb von Videos, wodurch Lernende schneller relevante Inhalte finden.
  • Akademische Anerkennung: Publikation der Ergebnisse in Springers Lecture Notes in Computer Science mit wertvollen Erkenntnissen zur Anwendung multimodaler KI im Bildungsbereich.