# --------------------- # # DAGENS DATASETT <3 # # --------------------- # library( datasets ) # trees er et datasett i pakken 'datasets', med diameter (Girth) og høyde (Height) målt i tommer # library(help = "datasets") viser hvilke datasett som er tilgjengelige i pakken 'datasets' # Lager en ny tabell "trees.cm" som vi skal bruke til å holde (lagre) de samme dataene som i trees, men med enhet cm # Først kopierer vi trees_cm = trees # Og så transformerer vi fra tommer til cm: trees_cm$Girth = trees$Girth * 2.54 trees_cm$Height = trees$Height * 2.54 # Nå har vi dataene med høyde og diameter i cm i tabellen trees_cm, og de originale dataene i tommer ligger i tabellen trees # --------------------- # # SPREDNINGSPLOTT # # --------------------- # # Spredningsplott, med diameter (Girth) langs x-aksen og høyde (Height) # langs y-aksen: plot( trees_cm$Girth, trees_cm$Height, xlab = "Diameter (cm)", ylab = "Høyde (cm)" ) #Legger til regresjonslinje, for regresjonen av y (høyde) på x (diameter): abline( lm( Height ~ Girth, data = trees_cm ), col = "red" ) # --------------------- # # KORRELASJON # # --------------------- # #Korrelasjonen mellom diameter og høyde: cor( trees_cm$Girth, trees_cm$Height ) #Korrelasjon er symmetrisk cor( trees_cm$Height, trees_cm$Girth ) #Korrelasjonen er uavhengig av måleenhet, se på målingene i tommer: cor( trees$Girth, trees$Height ) # --------------------- # # OPPSUMMERINGSTALL # # --------------------- # #Men numeriske oppsummeringer av hver enkelt variabel er påvirket av transformasjon: summary( trees_cm$Girth ) summary( trees$Girth )