März 2024
Lecture Video Retrieval-Augmented Generation Framework
Projektübersicht Dieses Projekt beschäftigt sich mit der Verbesserung automatischer Beantwortung von Fragen innerhalb von Lehrvideos durch Entwicklung eines multimodalen Retrieval-Augmented-Generation-(RAG)-Frameworks. Aufgrund der rasanten Zunahme von Online-Lehrvideos haben Lernende zunehmend Schwierigkeiten, gezielte Informationen schnell zu finden.
Ziele
- Effiziente Informationsfindung: Präzise Antworten sowohl innerhalb großer Vorlesungssammlungen als auch innerhalb einzelner Videos schnell auffindbar machen.
- Multimodale Integration: Nutzung von auditiven und visuellen Daten.
- Fragen beantworten: Statt nur relevante Videosegmente zu finden, konkrete Antworten basierend auf Video-Inhalten generieren.
Lösung
- Fortschrittliches multimodales RAG-Framework: Entwicklung eines ausgeklügelten Retrieval-Mechanismus, der Audiotranskripte (ASR) und extrahierte visuelle Texte (OCR) kombiniert, um umfassenden Kontext zu gewinnen.
Kontextuelles Re-Ranking: Integration eines Schritts zur Priorisierung relevanter Kontexte, um die Genauigkeit und Relevanz der generierten Antworten zu verbessern.
Interaktive Benutzeroberfläche: Entwicklung einer prototypischen Benutzeroberfläche, mit der Lernende Fragen stellen und detaillierte Antworten samt der relevanten Videosegmente erhalten.
Ergebnisse
- Verbesserte Antwortqualität: Deutlich bessere Leistung als traditionelle eigenständige Sprachmodelle durch multimodale Kontextintegration.
- Gesteigerte Effizienz: Verkürzte Zeit bei der Informationssuche innerhalb von Videos, wodurch Lernende schneller relevante Inhalte finden.
- Akademische Anerkennung: Publikation der Ergebnisse in Springers Lecture Notes in Computer Science mit wertvollen Erkenntnissen zur Anwendung multimodaler KI im Bildungsbereich.