Whisper i TSD

Her er oppskrift på hvordan du kan transkribere med Whisper i TSD.

TSD-Autotekst

Ønsker du automatisk teksting eller transkribering av lyd- og video-opptak i TSD?
Da anbefaler vi å benytte TSD-Autotekst; En brukervennlig transkriberingstjeneste som er tilgjengelig for alle i TSD, uten ekstra kostnad.

Før du begynner

TSD-prosjektet må ha tilgang til tungregning på Colossus. Om dette ikke allerede er på plass må PI sende e-post til tsd-drift@usit.uio.no med relevant prosjektnummer og etterspørre tilgang.

Installasjon

Fordi prosjekter kan ha både Windows- og Linux-maskiner er det flere måter å installere Whisper på. Felles er at programvaren må kopieres fra et fellesområde og inn i prosjektet vårt. Dette kan gjøres på ulike måter, og vi viser her hvordan det gjøres i File Explorer og i en terminal.

File Explorer (Windows)

ÅpneFile Explorer
Klikk i filsti-feltet og skriv inn følgende filsti: \\ess01\shared\software\whisper
Tast så Enter på tastaturet når stien er innskrevet.
Marker alt innhold i denne mappen, høyreklikk på en av de blå radene og velg Copy.
Klikk i filsti-feltet og skriv inn følgende filsti hvor pXXXX byttes ut med prosjektnummeret vårt: \\ess01\pXXXX\data\durable
Tast så Enter på tastaturet når stien er innskrevet.
Opprett en ny mappe i denne mappen ved å høyreklikke i et blankt felt innad i mappen, velg New og klikk deretter på Folder. Gi mappen et passende navn, vi anbefaler whisper. Avslutt med å gå inn i denne nye mappen.
Lim så inn innholdet som tidligere ble kopiert ved å høyreklikke og velge Paste. Whisper er nå kopiert til prosjektet vårt, og kan benyttes av alle prosjektmedlemmer.

Terminal (Linux + Windows)

Åpne et terminalvindu (på Windows må du først koble til prosjektets submit-node ved bruk av PuTTY, hvordan dette gjøres er beskrevet her).
Manøvrer til prosjektets durable-mappe med følgende kommando, hvor pXXXX byttes ut med relevant prosjektnummer (alle kommandoer må etterfølges av trykk på Enter-tasten på tastaturet):

cd /tsd/pxxxx/data/durable

3. Kopier whisper-mappen fra den delte disken til durable-mappen med følgende kommando:

cp -r /shared/software/whisper/ .

Whisper er nå kopiert til durable-mappen og tilgjenglig for alle i prosjektet.

Hvordan benytte Whisper

For å benytte Whisper må man først koble seg til maskinen Colossus, som gjøres gjennom prosjektets submit-node (om dette høres ukjent ut, ta en ny gjennomgang av Før man begynner). Herfra starter vi en transkriberingsjobb som vil bli utført etter en køordning, som man finner mer informasjon om her. For å koble til submit-noden gjøres følgende (avhengig av maskintypen til prosjektet):

Windows: Følg veiledningen på denne siden.
Linux: Åpne programmet Terminal, skriv ssh pxxxx-hpc-01 og trykk Enter-tasten. Angi deretter TSD-passordet ditt (OBS! Passordet skrives inn selv om du ikke ser noen reaksjon på skjermen) og bekreft ved å trykke Enter.

Nå som vi er tilkoblet submit-noden vil ting være likt uavhengig av hvilken type virtuell maskin vi benytter oss av. De neste stegene er som følger:

Påse at lydfilene som skal transkriberes befinner seg i mappen pxxxx/data/durable/whisper/data/. Dette gjøres enklest i programmene File Explorer (Windows) eller Files (Linux).
NB! Filnavn kan kun ha lovlige tegn og ikke mellomrom.
Sett igang jobben som utfører transkriberingen fra riktig mappe ved å utføre følgende kommandoer i PuTTY/Terminal, hvor pXXXX byttes ut med riktig prosjektnr (hver kommando må etterfølges av trykk på Enter-tasten):
```
cd /tsd/pxxxx/data/durable/whisper
```
```
./transcribe_data
```
Du bør nå få en melding om at en jobb er sendt inn, med tilhørende ID.
De transkriberte filene vil dukke opp i samme mappe som opptaket/opptakene (pxxxx/data/durable/whisper/data/) straks jobben er ferdig utført.
Husk å flytte disse før du transkriberer andre filer!

Dersom noe skulle gå galt med transkribsjonsjobben vil det genereres en slurm-JOBID.out-fil i whisper-mappen, som inneholder informasjon om hvorfor jobben feilet.

Se instruksjonsvideo

Advarsel: I videon nevnes at man logger på submit host (pxxx-submit), men etter nylige endringer i Colossus heter submit host nå pxxx-hpc-nn.

Merk: Språkmodellen brukt av Whisper på Colossus er nå en programvare modul som blir lastet av scriptet som ligger i whisper folderen, og ikke en fil i seg selv i den folderen slik det var tildligere. Se også under i 'Avanserte instillinger' avsnittet for hvordan du kan velge språkmodell.

Denne videoen er tekstet med Whisper både med NOR og EN som parameter, og da kom følgende filer ut (som jeg har eksportert fra TSD)

Du kan endre teksting selv eller skru den av. Denne filmen er tekstet uten å bli redigert i etterkant. Jeg brukte Whisper til å oversette ved å endre i whisper.sm.

Avanserte innstillinger

Du kan gjøre endringer på diverse innstillinger for transkribsjonen din selv ved å redigere filen whisper.sm. Denne filen åpnes i et tekstprogram, f.eks. Notepad eller Notepad++, ved å høyreklikke og velge Open with, før man deretter velger programmet.

Her er 2 ting du kan endre:

LANGUAGE=en
- Om du endrer denne til fra "no" til "en" får du automatisk oversatt transcriberingen(!)
#SBATCH --time=00:20:00
- om du har store filer, må du øke denne opp fra 20 min, ellers får du time-out.

Husk å lagre fila før du gjør kjører scriptet på nytt.

Whisper benytter nå språkmodellen "large-v3" som default, men alle OpenAI modeller er inkludert i programvare modulen og kan velges ved å endre miljø variablene som brukes av modulen. For å se alle språkmodeller tilgjengelig i modulen, kjøre følgende kommando etter å ha lastet modulen:

printenv | grep EBWHISPERMODEL

For å velge en annen modell, oppdater scriptet "whisper.sm" med korresponderende miljø variabel (f.eks. MODEL=$EBWHISPERMODELLARGEV2).

Publisert 21. nov. 2022 12:12 - Sist endret 14. apr. 2025 08:04

̽����ѡ