coding-corner/Reinforcement/nBandits.R

#####
#    nBandits: Anzahl der Arme am Banditen
#         eps: Explorationswahrscheinlichkeit
#       plays: Anzahl der Versuche
#
#    Simuliert das n-armige Banditenproblem mit epsilon-greedy-Strategie.
#    Gibt die Belohnung für jedes Spiel zurück.
#####
epsBandits<-function(nBandits = 10, eps = .1, plays) {
   # Erzeugt Zufallsfunktionen mit unterschiedlichem Mittelwert
   bandits <- rnorm(nBandits)

   tries <- list() # Speichert die Ergebnisse am jeweiligen Automaten
   expected <- rep(0, length(bandits)) # Zwischengespeicherter Erwartungswert
   reward <- numeric(plays)             # Ergebnisse aller Durchläufe
 
   for (i in seq_along(bandits)) {
      tries[i] <- list(NULL)
   }

   # Es wird der Automat mit dem höchsten Erwartungswert gewählt
   # oder zufällig (gleichverteilt) einer der Automaten.
   # Anschließend wird der Erwartungswert für den gewählten Automaten
   # aktualisiert.
   for (i in seq_len(plays)) {
      if (runif(1) < eps) {
         pick <- sample.int(nBandits, 1)  
      } else {
         pick <- which.max(expected)
      }
   
      reward[i] <- rnorm(1, mean = bandits[pick])
      tries[[pick]] <- c(tries[[pick]], reward[i])
      expected[pick] <- mean(tries[[pick]]) # Einladung zum Optimieren
   }
   return(reward)
}

#####
#    nBandits: Anzahl der Arme am Banditen
#         eps: Explorationswahrscheinlichkeit
#       plays: Anzahl der Versuche
#
#    Simuliert das n-armige Banditenproblem mit epsilon-greedy-Strategie.
#    Am Start wird jeder Arm einmal ausprobiert.
#    Gibt die Belohnung für jedes Spiel zurück.
#####
epsBanditsPlayFirst<-function(nBandits = 10, eps = .1, plays) {
   # Erzeugt Zufallsfunktionen mit unterschiedlichem Mittelwert
   bandits <- rnorm(nBandits)

   tries <- list() # Speichert die Ergebnisse am jeweiligen Automaten
   expected <- rep(0, length(bandits)) # Zwischengespeicherter Erwartungswert
   reward <- numeric(plays)             # Ergebnisse aller Durchläufe

   # Alle Automaten werden ausprobiert
   for (i in seq_along(bandits)) {
      expected[i] <- rnorm(1, mean = bandits[i])
      tries[i] <- expected[i]
      reward[i] <- expected[i]
   }

   # Es wird der Automat mit dem höchsten Erwartungswert gewählt
   # oder zufällig (gleichverteilt) einer der Automaten.
   # Anschließend wird der Erwartungswert für den gewählten Automaten
   # aktualisiert.
   for (i in seq((nBandits+1),plays)) {
      if (runif(1) < eps) {
         pick <- sample.int(nBandits, 1)  
      } else {
         pick <- which.max(expected)
      }
   
      reward[i] <- rnorm(1, mean = bandits[pick])
      tries[[pick]] <- c(tries[[pick]], reward[i])
      expected[pick] <- mean(tries[[pick]]) # Einladung zum Optimieren
   }
   return(reward)
}

#####
#    nBandits: Anzahl der Arme am Banditen
#        init: Anfänglicher Erwartungswert für alle Arme
#       plays: Anzahl der Versuche
#
#    Simuliert das n-armige Banditenproblem mit optimistischer Strategie.
#    Gibt die Belohnung für jedes Spiel zurück.
#####
optimisticBandits<-function(nBandits = 10, init = 5, plays) {
   # Erzeugt Zufallsfunktionen mit unterschiedlichem Mittelwert
   bandits <- rnorm(nBandits)

   tries <- list() # Speichert die Ergebnisse am jeweiligen Automaten
   expected <- rep(init, length(bandits)) # Zwischengespeicherter Erwartungswert
   reward <- numeric(plays)             # Ergebnisse aller Durchläufe
 
   for (i in seq_along(bandits)) {
      tries[i] <- list(init)
   }

   # Es wird der Automat mit dem höchsten Erwartungswert gewählt
   # oder zufällig (gleichverteilt) einer der Automaten.
   # Anschließend wird der Erwartungswert für den gewählten Automaten
   # aktualisiert.
   for (i in seq_len(plays)) {
      pick <- which.max(expected)
   
      reward[i] <- rnorm(1, mean = bandits[pick])
      tries[[pick]] <- c(tries[[pick]], reward[i])
      expected[pick] <- mean(tries[[pick]]) # Einladung zum Optimieren
   }
   return(reward)
}

# plays <- 1000
# reward01eps <- epsBandits(plays = plays, eps = 0.1)
# reward0eps  <- epsBanditsPlayFirst(plays = plays, eps = 0)
# rewardOpt   <- optimisticBandits(plays = plays, init = 5)
Code zur Einführung in RL mit n-armigen Banditen. 2017-05-13 17:54:54 +02:00			`#####`
			`# nBandits: Anzahl der Arme am Banditen`
			`# eps: Explorationswahrscheinlichkeit`
			`# plays: Anzahl der Versuche`
			`#`
			`# Simuliert das n-armige Banditenproblem mit epsilon-greedy-Strategie.`
			`# Gibt die Belohnung für jedes Spiel zurück.`
			`#####`
			`epsBandits<-function(nBandits = 10, eps = .1, plays) {`
			`# Erzeugt Zufallsfunktionen mit unterschiedlichem Mittelwert`
			`bandits <- rnorm(nBandits)`

			`tries <- list() # Speichert die Ergebnisse am jeweiligen Automaten`
			`expected <- rep(0, length(bandits)) # Zwischengespeicherter Erwartungswert`
			`reward <- numeric(plays) # Ergebnisse aller Durchläufe`

			`for (i in seq_along(bandits)) {`
			`tries[i] <- list(NULL)`
			`}`

			`# Es wird der Automat mit dem höchsten Erwartungswert gewählt`
			`# oder zufällig (gleichverteilt) einer der Automaten.`
			`# Anschließend wird der Erwartungswert für den gewählten Automaten`
			`# aktualisiert.`
			`for (i in seq_len(plays)) {`
			`if (runif(1) < eps) {`
			`pick <- sample.int(nBandits, 1)`
			`} else {`
			`pick <- which.max(expected)`
			`}`

			`reward[i] <- rnorm(1, mean = bandits[pick])`
			`tries[[pick]] <- c(tries[[pick]], reward[i])`
			`expected[pick] <- mean(tries[[pick]]) # Einladung zum Optimieren`
			`}`
			`return(reward)`
			`}`

			`#####`
			`# nBandits: Anzahl der Arme am Banditen`
			`# eps: Explorationswahrscheinlichkeit`
			`# plays: Anzahl der Versuche`
			`#`
			`# Simuliert das n-armige Banditenproblem mit epsilon-greedy-Strategie.`
			`# Am Start wird jeder Arm einmal ausprobiert.`
			`# Gibt die Belohnung für jedes Spiel zurück.`
			`#####`
			`epsBanditsPlayFirst<-function(nBandits = 10, eps = .1, plays) {`
			`# Erzeugt Zufallsfunktionen mit unterschiedlichem Mittelwert`
			`bandits <- rnorm(nBandits)`

			`tries <- list() # Speichert die Ergebnisse am jeweiligen Automaten`
			`expected <- rep(0, length(bandits)) # Zwischengespeicherter Erwartungswert`
			`reward <- numeric(plays) # Ergebnisse aller Durchläufe`

			`# Alle Automaten werden ausprobiert`
			`for (i in seq_along(bandits)) {`
			`expected[i] <- rnorm(1, mean = bandits[i])`
			`tries[i] <- expected[i]`
			`reward[i] <- expected[i]`
			`}`

			`# Es wird der Automat mit dem höchsten Erwartungswert gewählt`
			`# oder zufällig (gleichverteilt) einer der Automaten.`
			`# Anschließend wird der Erwartungswert für den gewählten Automaten`
			`# aktualisiert.`
			`for (i in seq((nBandits+1),plays)) {`
			`if (runif(1) < eps) {`
			`pick <- sample.int(nBandits, 1)`
			`} else {`
			`pick <- which.max(expected)`
			`}`

			`reward[i] <- rnorm(1, mean = bandits[pick])`
			`tries[[pick]] <- c(tries[[pick]], reward[i])`
			`expected[pick] <- mean(tries[[pick]]) # Einladung zum Optimieren`
			`}`
			`return(reward)`
			`}`

			`#####`
			`# nBandits: Anzahl der Arme am Banditen`
			`# init: Anfänglicher Erwartungswert für alle Arme`
			`# plays: Anzahl der Versuche`
			`#`
			`# Simuliert das n-armige Banditenproblem mit optimistischer Strategie.`
			`# Gibt die Belohnung für jedes Spiel zurück.`
			`#####`
			`optimisticBandits<-function(nBandits = 10, init = 5, plays) {`
			`# Erzeugt Zufallsfunktionen mit unterschiedlichem Mittelwert`
			`bandits <- rnorm(nBandits)`

			`tries <- list() # Speichert die Ergebnisse am jeweiligen Automaten`
			`expected <- rep(init, length(bandits)) # Zwischengespeicherter Erwartungswert`
			`reward <- numeric(plays) # Ergebnisse aller Durchläufe`

			`for (i in seq_along(bandits)) {`
			`tries[i] <- list(init)`
			`}`

			`# Es wird der Automat mit dem höchsten Erwartungswert gewählt`
			`# oder zufällig (gleichverteilt) einer der Automaten.`
			`# Anschließend wird der Erwartungswert für den gewählten Automaten`
			`# aktualisiert.`
			`for (i in seq_len(plays)) {`
			`pick <- which.max(expected)`

			`reward[i] <- rnorm(1, mean = bandits[pick])`
			`tries[[pick]] <- c(tries[[pick]], reward[i])`
			`expected[pick] <- mean(tries[[pick]]) # Einladung zum Optimieren`
			`}`
			`return(reward)`
			`}`

			`# plays <- 1000`
			`# reward01eps <- epsBandits(plays = plays, eps = 0.1)`
			`# reward0eps <- epsBanditsPlayFirst(plays = plays, eps = 0)`
			`# rewardOpt <- optimisticBandits(plays = plays, init = 5)`