leviaton · Sep 21, 2018
diff --git a/‎.idea/workspace.xml
+44-99 b/‎.idea/workspace.xml
+44-99
diff --git a/‎DQN.py
+68-173 b/‎DQN.py
+68-173
diff --git a/‎__pycache__/DQN.cpython-36.pyc
-2.43 KB b/‎__pycache__/DQN.cpython-36.pyc
-2.43 KB
diff --git a/‎food2.png
286 Bytes b/‎food2.png
286 Bytes
diff --git a/‎snakeClass.py
+32-31 b/‎snakeClass.py
+32-31
diff --git a/‎weights_new10.hdf5
81.2 KB b/‎weights_new10.hdf5
81.2 KB
diff --git a/‎weights_new11.hdf5
119 KB b/‎weights_new11.hdf5
119 KB
diff --git a/‎weights_new12.hdf5
44 KB b/‎weights_new12.hdf5
44 KB
diff --git a/‎weights_new13.hdf5
44 KB b/‎weights_new13.hdf5
44 KB
diff --git a/‎weights_new14.hdf5
71.7 KB b/‎weights_new14.hdf5
71.7 KB
diff --git a/‎weights_new14_1.hdf5
71.7 KB b/‎weights_new14_1.hdf5
71.7 KB
diff --git a/‎weights_new14_2.hdf5
71.7 KB b/‎weights_new14_2.hdf5
71.7 KB
diff --git a/‎weights_new15.hdf5
202 KB b/‎weights_new15.hdf5
202 KB
diff --git a/‎weights_new15_1.hdf5
202 KB b/‎weights_new15_1.hdf5
202 KB
diff --git a/‎weights_new16.hdf5
44 KB b/‎weights_new16.hdf5
44 KB
diff --git a/‎weights_new17.hdf5
140 KB b/‎weights_new17.hdf5
140 KB
diff --git a/‎weights_new17_1.hdf5
140 KB b/‎weights_new17_1.hdf5
140 KB
diff --git a/‎weights_new6.hdf5
31 KB b/‎weights_new6.hdf5
31 KB
diff --git a/‎weights_new7_random.hdf5
31 KB b/‎weights_new7_random.hdf5
31 KB
diff --git a/‎weights_new8.hdf5
31 KB b/‎weights_new8.hdf5
31 KB
diff --git a/‎weights_new9.hdf5
60.9 KB b/‎weights_new9.hdf5
60.9 KB
@@ -1,13 +1,13 @@
-#import snakeClass
+# import snakeClass
 import pygame
-from keras.models import Sequential,Model
+from keras.models import Sequential, Model
 from keras.layers.core import Flatten, Dense, Dropout
 from keras.optimizers import RMSprop, Adam
 import random
 import numpy as np
 import pandas as pd
 import pygame
-from keras.models import Sequential,Model
+from keras.models import Sequential, Model
 from keras.layers.core import Flatten, Dense, Dropout
 from keras.optimizers import RMSprop
 import random
@@ -18,9 +18,9 @@
 import copy
 from operator import sub, add
 
-
 pd.set_option('display.max_columns', 500)
 
+
 class DQNAgent(object):
 
     def __init__(self):
@@ -30,217 +30,112 @@ def __init__(self):
         self.short_memory = np.array([])
         self.agent_target = 1
         self.agent_predict = 0
-        self.learning_rate = 0.001
-        self.model = self.network()
-        #self.model = self.network("weights_new3.hdf5")
-        self.epsilon = 2
+        self.learning_rate = 0.000005
+
+        #self.model = self.network()
+        self.model = self.network("weights_new17_1.hdf5")
+        self.epsilon = 0
         self.actual = []
         self.memory = []
 
-
     def get_state(self, game, player, food):
 
         state = [
-                (list(map(add, player.position[-1], [-20,0])) in player.position and player.x_change != 20) or
-                player.position[-1][0] - 20 < 0,  # danger left
-                (list(map(add, player.position[-1], [-40,0])) in player.position and player.x_change != 20) or
-                player.position[-1][0] - 40 < 0,  # danger 2 left
-                (list(map(add, player.position[-1], [20,0])) in player.position and player.x_change != -20) or
-                player.position[-1][0] + 20 > game.display_width,  # danger right
-                (list(map(add, player.position[-1], [40, 0])) in player.position and player.x_change != -20) or
-                player.position[-1][0] + 40 > game.display_width,  # danger 2 right
-                (list(map(add, player.position[-1], [0, -20])) in player.position and player.y_change != 20) or
-                player.position[-1][-1] - 20 < 0,  # danger up
-                (list(map(add, player.position[-1], [0, -40])) in player.position and player.y_change != 20) or
-                player.position[-1][-1] - 40 < 0,  # danger 2 up
-                (list(map(add, player.position[-1], [0, 20])) in player.position and player.y_change != -20) or
-                player.position[-1][-1] + 20 >= game.display_height,  # danger down
-                (list(map(add, player.position[-1], [0, 40])) in player.position and player.y_change != -20) or
-                player.position[-1][-1] + 40 > game.display_height,  # danger 2 down
-
-            # (player.position[-1][0] - 20 in self.get_position_x_y(player)[0] and player.x_change!=20) or player.position[-1][0] - 20 <= 0,  # danger left
-                    # (player.position[-1][0] - 40 in self.get_position_x_y(player)[0] and player.x_change!=20) or player.position[-1][0] - 40 <= 0,                    # danger 2 left
-                    # (player.position[-1][0] + 20 in self.get_position_x_y(player)[0] and player.x_change != -20) or player.position[-1][0] + 20 >= game.display_width,   # danger right
-                    # (player.position[-1][0] + 40 in self.get_position_x_y(player)[0] and player.x_change != -20) or player.position[-1][0] + 40 >= game.display_width,  # danger 2 right
-                    # (player.position[-1][-1] - 20 in self.get_position_x_y(player)[1] and player.y_change != 20) or player.position[-1][-1] - 20 <= 0,                    # danger up
-                    # (player.position[-1][-1] - 40 in self.get_position_x_y(player)[1] and player.y_change != 20) or player.position[-1][-1] - 40 <= 0,                  # danger 2 up
-                    # (player.position[-1][-1] + 20 in self.get_position_x_y(player)[1] and player.y_change != -20) or player.position[-1][-1] + 20 >= game.display_height,  # danger down
-                    # (player.position[-1][-1] + 40 in self.get_position_x_y(player)[1] and player.y_change != -20) or player.position[-1][-1] + 40 >= game.display_height,# danger 2 down
-                    #player.x_change == - 20 and (player.position[-1][0] - 20 < 0 or player.position[-1][0] - 20 in self.get_position_x_y(player)[0]),#danger straight
-                    player.x_change == -20,           # move left
-                    player.x_change == 20,            # move right
-                    player.y_change == -20,           # move up
-                    player.y_change == 20,            # move down
-                    food.x_food < player.x,           # food left
-                    food.x_food > player.x,           # food right
-                    food.y_food < player.y,           # food up
-                    food.y_food > player.y            # food down
+            (player.x_change == 20 and player.y_change == 0 and ((list(map(add, player.position[-1], [20, 0])) in player.position) or
+            player.position[-1][0] + 20 >= game.display_width)) or (player.x_change == -20 and player.y_change == 0 and ((list(map(add, player.position[-1], [-20, 0])) in player.position) or
+            player.position[-1][0] - 20 < 0)) or (player.x_change == 0 and player.y_change == -20 and ((list(map(add, player.position[-1], [0, -20])) in player.position) or
+            player.position[-1][-1] - 20 < 0)) or (player.x_change == 0 and player.y_change == 20 and ((list(map(add, player.position[-1], [0, 20])) in player.position) or
+            player.position[-1][-1] + 20 >= game.display_height)),  # danger straight
+
+            (player.x_change == 0 and player.y_change == -20 and ((list(map(add,player.position[-1],[20, 0])) in player.position) or
+            player.position[ -1][0] + 20 > game.display_width)) or (player.x_change == 0 and player.y_change == 20 and ((list(map(add,player.position[-1],
+            [-20,0])) in player.position) or player.position[-1][0] - 20 < 0)) or (player.x_change == -20 and player.y_change == 0 and ((list(map(
+            add,player.position[-1],[0,-20])) in player.position) or player.position[-1][-1] - 20 < 0)) or (player.x_change == 20 and player.y_change == 0 and (
+            (list(map(add,player.position[-1],[0,20])) in player.position) or player.position[-1][
+             -1] + 20 >= game.display_height)),  # danger right
+
+             (player.x_change == 0 and player.y_change == 20 and ((list(map(add,player.position[-1],[20,0])) in player.position) or
+             player.position[-1][0] + 20 > game.display_width)) or (player.x_change == 0 and player.y_change == -20 and ((list(map(
+             add, player.position[-1],[-20,0])) in player.position) or player.position[-1][0] - 20 < 0)) or (player.x_change == 20 and player.y_change == 0 and (
+            (list(map(add,player.position[-1],[0,-20])) in player.position) or player.position[-1][-1] - 20 < 0)) or (
+            player.x_change == -20 and player.y_change == 0 and ((list(map(add,player.position[-1],[0,20])) in player.position) or
+            player.position[-1][-1] + 20 >= game.display_height)), #danger left
+
+
+            player.x_change == -20,  # move left
+            player.x_change == 20,  # move right
+            player.y_change == -20,  # move up
+            player.y_change == 20,  # move down
+            food.x_food < player.x,  # food left
+            food.x_food > player.x,  # food right
+            food.y_food < player.y,  # food up
+            food.y_food > player.y  # food down
             ]
 
         for i in range(len(state)):
             if state[i]:
                 state[i]=1
             else:
                 state[i]=0
-        # if state[0] == 1:
-        #     print('DANGER LEFT')
-        # if state[1] == 1:
-        #     print('DANGER 2 LEFT')
-        # if state[2] == 1:
-        #     print('DANGER RIGHT')
-        # if state[3] == 1:
-        #     print('DANGER 2 RIGHT')
-        # if state[4] == 1:
-        #     print('DANGER UP')
-        # if state[5] == 1:
-        #     print('DANGER 2 UP')
-        # if state[6] == 1:
-        #     print('DANGER DOWN')
-        # if state[7] == True:
-        #     print('DANGER 2 DOWN')
 
         return np.asarray(state)
 
-    def get_position_x_y(self, player):
-        position_x = []
-        position_y = []
-        for i in player.position:
-            position_x.append(i[0])
-            position_y.append(i[1])
-        return position_x, position_y
-
-    def set_reward(self, game, player, food, crash):
+    def set_reward(self, player, food, crash):
+        self.reward = 0
         if crash:
             self.reward = -10
             return self.reward
         if player.eaten:
             self.reward = 10
-        elif (player.x_change < 0 and food.x_food < player.x) or (player.x_change > 0 and food.x_food > player.x) or (player.y_change < 0 and food.y_food < player.y) or (player.y_change > 0 and food.y_food > player.y):
-            self.reward = 2
-        else:
-            self.reward = -1
+        # elif (player.x_change < 0 and food.x_food < player.x) or (player.x_change > 0 and food.x_food > player.x) or (player.y_change < 0 and food.y_food < player.y) or (player.y_change > 0 and food.y_food > player.y):
+        #     self.reward = 1
+        # else:
+        #     self.reward = -1
         return self.reward
 
-    def possible_moves(self, player):
-        if player.x_change == -20:
-            return [0,2,3]
-        elif player.x_change == 20:
-            return [1,2,3]
-        elif player.y_change == -20:
-            return [0,1,2]
-        elif player.y_change == 20:
-            return [0,1,3]
-
-    def replay(self, game, player, food, actual):
-        player.position = copy.deepcopy(actual[0])
-        player.x, player.y, player.x_change, player.y_change, food.x_food, food.y_food, game.crash, player.eaten, player.food = actual[1:]
-
-    '''
-    def next_state(self, game, player, food, i):
-        actual = [player.position, player.x, player.y, player.x_change, player.y_change, food.x_food, food.y_food, game.crash, player.eaten]
-        original_state = self.get_state(game, player, food)
-        player.do_move(i, player.x, player.y, game, food)
-        player.display_player(player.x, player.y,player.food,game,player)
-        array = [original_state, i, self.set_reward(game, player), self.get_state(game, player, food)]
-        pygame.time.wait(500)
-        self.replay(game, player, food, actual)
-        player.display_player(player.x, player.y, player.food, game, player)
-        return array
-    '''
-
-    def next_state(self, game, player, food, i):
-        actual = [player.position, player.x, player.y, player.x_change, player.y_change, food.x_food, food.y_food, game.crash, player.eaten, player.food]
-        original_state = self.get_state(game, player, food)
-        player.do_move(i, player.x, player.y, game, food)
-        player.display_player(player.x, player.y,player.food,game,player)
-        array = [original_state, i, self.set_reward(game, player), self.get_state(game, player, food)]
-        pygame.time.wait(500)
-        self.replay(game, player, food, actual)
-        player.display_player(player.x, player.y, player.food, game, player)
-        return array
-
-    def loss(self, target, state, action):
-        return K.mean(K.square(target - self.predict_q(self.model, state, action)), axis=-1)
-
-    def network(self,weights=None):
+    def network(self, weights=None):
         model = Sequential()
-        model.add(Dense(output_dim=30, activation='relu', input_dim=16))
-        model.add(Dense(output_dim=30, activation='relu'))
+        model.add(Dense(output_dim=120, activation='relu', input_dim=11))
+        model.add(Dropout(0.25))
+        model.add(Dense(output_dim=120, activation='relu'))
+        model.add(Dropout(0.25))
+        model.add(Dense(output_dim=120, activation='relu'))
+        model.add(Dropout(0.25))
+
+        #model.add(Dense(output_dim=300, activation='relu'))
         model.add(Dense(output_dim=3, activation='softmax'))
         opt = Adam(self.learning_rate)
         model.compile(loss='mse', optimizer=opt)
 
         if weights:
             model.load_weights(weights)
-        # [self.loss(self.agent_target, self.agent_predict)]
         return model
 
-    def act(self, state):
-        if random.random(0, 1) < self.epsilon:
-            return random.randint(0, 4)
-        else:
-            return np.argmax(self.brain.predictOne(state))
-
-    def observe(self, sequence):  # in (s, a, r, s_) format
-        self.memory.add(sequence)
-
-    def q_parameter(self):
-        q = self.reward + self.gamma * np.argmax(self.fit_q())
-
-    def predict_q(self, model, state, action):
-        predictor = np.array([np.hstack(np.array([state, action]))])
-        q = model.predict(predictor)
-        return q
-
-    def train_q(self, storage, state, action):
-        train = np.array([storage[:17]])
-        test = np.array([storage[17]])
-        self.model.compile(loss='mse', optimizer=RMSprop(lr=0.025))
-        self.model.fit(train, test, epochs=1)
-
-    def train2_q(self,training, test):
-        training = training.values
-        test = test.values
-        self.model.fit(training, test, epochs=1)
-
-
-    def initialize_dataframe(self):
-        state = [0]*12
-        for i in range(12):
-            state[i]= random.choice([0, 1])
-        move = random.randint(1,4)
-        reward = random.choice([-1, -10, 10])
-        future_state = [0]*12
-        for i in range(12):
-            future_state[i] = random.choice([True, False])
-        Q = 1
-        array = [state, move, reward, future_state, Q]
-        self.dataframe = self.dataframe.append([array])
-
-    def store_memory(self, state, action, q):
-        self.short_memory = np.hstack(np.array([state, action, q]))
-        #print(self.short_memory)
-
     def remember(self, state, action, reward, next_state, done):
         self.memory.append((state, action, reward, next_state, done))
 
     def replay_new(self, memory):
-        if len(memory)>1500:
+        if len(memory) > 1000:
             minibatch = random.sample(memory, 1000)
         else:
             minibatch = memory
         for state, action, reward, next_state, done in minibatch:
             target = reward
             if not done:
-              target = reward + self.gamma * np.amax(self.model.predict(next_state.reshape((1, 16)))[0])
-            #print('TARGET', target)
-            target_f = self.model.predict(state.reshape((1, 16)))
-            #print('TARGET_F', target_f)
-            target_f[0][np.argmax(action)] = target
-            #print('TARGET_F_AFTER', target_f)
-            self.model.fit(state.reshape((1,16)), target_f, epochs=1, verbose=0)
-
-
+                target = reward + self.gamma * np.amax(self.model.predict(np.array([next_state]))[0])
+            # print('TARGET', target)
+            target_f = self.model.predict(np.array([state]))
+            # print('TARGET_1', target_f[0])
 
+            target_f[0][np.argmax(action)] = target
+            # print('TARGET_2', target_f[0])
 
+            self.model.fit(np.array([state]), target_f, epochs=1, verbose=0)
 
+    def train_short_memory(self, state, action, reward, next_state, done):
+        target = reward
+        if not done:
+            target = reward + self.gamma * np.amax(self.model.predict(next_state.reshape((1, 11)))[0])
+        target_f = self.model.predict(state.reshape((1, 11)))
+        target_f[0][np.argmax(action)] = target
+        self.model.fit(state.reshape((1, 11)), target_f, epochs=1, verbose=0)
@@ -11,7 +11,7 @@
 from sklearn import linear_model
 
 display_option = False
-speed = 0
+speed = 50
 class Game:
 
     def __init__(self, display_width, display_height):
@@ -22,7 +22,6 @@ def __init__(self, display_width, display_height):
         self.crash = False
         self.player = Player(self)
         self.food = Food(self, self.player)
-        self.speed = 50
         self.score = 0
 
 
@@ -72,7 +71,6 @@ def do_move(self, move, x, y, game, food,agent):
         self.x = x + self.x_change
         self.y = y + self.y_change
 
-        #print(self.x_change, self.y_change, self.x, self.y, self.position)
         if self.x < 0 or self.x == game.display_width or self.y < 0 or self.y == game.display_height or [self.x, self.y] in self.position:
             game.crash = True
         eat(self, food, game)
@@ -129,48 +127,53 @@ def display(player, food, game):
 def update_screen():
     pygame.display.update()
 
-def initial_move(player, game, food,agent):
-    player.do_move(1, player.x, player.y, game, food,agent)
+
+def initialize_game(player, game, food, agent):
+    state_init1 = agent.get_state(game, player, food)  # [0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0]
+    action = [1, 0, 0]
+    player.do_move(action, player.x, player.y, game, food, agent)
+    state_init2 = agent.get_state(game, player, food)
+    reward1 = agent.set_reward(player, food, game.crash)
+    agent.remember(state_init1, action, reward1, state_init2, game.crash)
+    agent.replay_new(agent.memory)
+
+
+def plot_score(array_counter, array_score):
+    fit = np.polyfit(array_counter, array_score, 1)
+    fit_fn = np.poly1d(fit)
+    plt.plot(array_counter, array_score, 'yo', array_counter, fit_fn(array_counter), '--k')
+    plt.show()
+
 
 def run():
     pygame.init()
     agent = DQNAgent()
     counter_games = 0
     score_plot = []
     counter_plot =[]
-    while counter_games < 100:
-        #Initialize game
+    while counter_games < 200:
+        #Initialize classes
         game = Game(400, 400)
         player1 = game.player
         food1 = game.food
-        #Initialize storage to train first network
-        state_init1 = agent.get_state(game,player1,food1)    #[0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0]
-        action = [1, 0, 0]
-        player1.do_move(action, player1.x, player1.y, game, food1, agent)
-        state_init2 = agent.get_state(game, player1, food1)
-        reward1 = agent.set_reward(game,player1,food1,game.crash)
-        agent.remember(state_init1,action, reward1, state_init2, game.crash)
-        agent.replay_new(agent.memory)
-        #Performn first move
+
+        #Perform first move
+        initialize_game(player1, game, food1, agent)
+
         if display_option:
             display(player1, food1, game)
         while not game.crash:
-            #player1.get_position_x()
-            if counter_games < 15:
-                agent.epsilon = 3
-            elif counter_games < 30:
-                agent.epsilon = 2
-            elif counter_games >= 30:
-                agent.epsilon = 0
+            agent.epsilon = 0
             state_old = agent.get_state(game, player1, food1)
-            if randint(0, 10) < agent.epsilon:
+            if randint(0, 200) < agent.epsilon:
                 final_move = to_categorical(randint(0, 2), num_classes=3)[0]
             else:
-                prediction = agent.model.predict(state_old.reshape((1,16)))
+                prediction = agent.model.predict(state_old.reshape((1,11)))
                 final_move = to_categorical(np.argmax(prediction[0]), num_classes=3)[0]
             player1.do_move(final_move, player1.x, player1.y, game, food1, agent)
             state_new = agent.get_state(game, player1, food1)
-            reward = agent.set_reward(game, player1, food1, game.crash)
+            reward = agent.set_reward(player1, food1, game.crash)
+            agent.train_short_memory(state_old, final_move, reward, state_new, game.crash)
             agent.remember(state_old, final_move, reward, state_new, game.crash)
             if display_option:
                 display(player1, food1, game)
@@ -182,11 +185,9 @@ def run():
         print('Game', counter_games, '      Score:', game.score)
         score_plot.append(game.score)
         counter_plot.append(counter_games)
-    agent.model.save_weights('weights_new5_lr0001.hdf5')
+    agent.model.save_weights('weights_new17_1.hdf5')
+
+    plot_score(counter_plot, score_plot)
 
-    fit = np.polyfit(counter_plot, score_plot, 1)
-    fit_fn = np.poly1d(fit)
-    plt.plot(counter_plot, score_plot, 'yo', counter_plot, fit_fn(counter_plot), '--k')
-    plt.show()
 
 run()