Oh, das jetzt aber gar nicht einmal so gut.
Wo trainiere ich dann bitte meine speech to text modelle? Also nicht ich sondern openai bspw…
Wenn man Stille in einer Aufnahme hat und whisper rüber jagt hat man oft copyright Angaben von öffis, die Existenz dieser Artefakte weißt darauf hin das ein größerer teil der Daten aus diesen Quellen stammt.
https://github.com/openai/whisper/discussions/928
Ironisch wie der Einsatz von “ki” trainingsdaten vergiftet. Das fühlt sich ein wenig an wie der stahl aus schiffen vor den Atombombentest: pre-AI-Data .
Oder kurzum, besser als jetzt werden die Trainingsdaten nie gewesen sein