Este simples trecho de código percorre todos os arquivos de áudio de uma pasta chamada audios para fazer a transcrição para texto, gerando para cada arquivo, um novo arquivo com o mesmo nome no formato .docx
O PML (modelo de linguagem pré-treinado) whisper-large-v3 foi criado e é mantido pela OpenAI.
Whisper é um modelo pré-treinado para reconhecimento automático de fala (ASR) e tradução de fala. Treinado com 680 mil horas de dados rotulados, os modelos Whisper demonstram uma forte capacidade de se adaptar a muitos conjuntos de dados e áreas sem a necessidade de ajustes finos.
Saiba mais em https://huggingface.co/openai/whisper-large-v3
Cria uma pasta chamada audios (para os arquivos de áudio) e outra audios-transcritos (resultado da transcrição)
mkdir audios
mkdir audios-transcritos
Instale o FFMPEG
sudo apt install ffmpeg
Use o pip para instalar o conteúdo do requirements.txt
pip install -r requirements.txt
Após copiar os áudios a serem transcritos para a pasta audios, execute o arquivo transcrever-audios.py
py transcrever-audios.py