AI 玩跳一跳的正確姿勢，Auto-Jump 演算法詳解

2018-01-31
加入好友隨時分享有用經驗！

最近，微信小遊戲跳一跳可以說是火遍了全國，從小孩子到大孩子彷彿每一個人都在刷跳一跳，作為無（zhi）所（hui）不（ban）能（zhuan）的AI程序員，我們在想，能不能用人工智慧（AI）和計算機視覺（CV）的方法來玩一玩這個遊戲？於是，我們開發了微信跳一跳Auto-Jump演算法，重新定義了玩跳一跳的正確姿勢，我們的演算法不僅遠遠超越了人類的水平，在速度和準確度上也遠遠超越了目前已知的所有演算法，可以說是跳一跳界的state-of-the-art，下面我們詳細介紹我們的演算法。

演算法的第一步是獲取手機屏幕的截圖並可以控制手機的觸控操作，我們的github倉庫里詳細介紹了針對Android和IOS手機的配置方法。

你只需要按照將手機連接電腦，按照教程執行就可以完成配置。在獲取到屏幕截圖之後，就是個簡單的視覺問題。我們需要找的就是小人的位置和下一次需要跳的檯面的中心。

如圖所示，綠色的點代表小人當前的位置，紅點代表目標位置。

多尺度搜索（Multiscale Search）

這個問題可以有非常多的方法去解，為了糙快猛地刷上榜，我一開始用的方式是多尺度搜索。我隨便找了一張圖，把小人摳出來，就像下面這樣。

另外，我注意到小人在屏幕的不同位置，大小略有不同，所以我設計了多尺度的搜索，用不同大小的進行匹配，最後選取置信度（confidence score）最高的。

多尺度搜索的代碼長這樣

def multi_scale_search(pivot,screen,range=0.3,num=10):
H,W = screen.shape[:2]
h,w = pivot.shape[:2]
found = None
forscale innp.linspace(1-range,1+range,num)[::-1]:
resized = cv2.resize(screen,(int(W *scale),int(H *scale)))
r = W / float(resized.shape[1])
ifresized.shape[0] < horresized.shape[1] < w:
break
res = cv2.matchTemplate(resized,pivot,cv2.TM_CCOEFF_NORMED)
loc = np.where(res >= res.max())
pos_h,pos_w = list(zip(*loc))[0]
iffound isNone orres.max() > found[-1]:
found = (pos_h,pos_w,r,res.max())
iffound isNone: return(0,0,0,0,0)
pos_h,pos_w,r,score = found
start_h,start_w = int(pos_h *r),int(pos_w *r)
end_h,end_w = int((pos_h + h) * r),int((pos_w + w) * r)
return[start_h,start_w,end_h,end_w,score]

我們來試一試，效果還不錯，應該說是又快又好，我所有的實驗中找小人從來沒有失誤。

不過這裡的位置框的底部中心並不是小人的位置，真實的位置是在那之上一些。

同理，目標檯面也可以用這種辦法搜索，但是我們需要收集一些不同的檯面，有圓形的，方形的，便利店，井蓋，稜柱等等。由於數量一多，加上多尺度的原因，速度上會慢下來。這時候，我們就需要想辦法加速了。首先可以注意到目標位置始終在小人的位置的上面，所以可以操作的一點就是在找到小人位置之後把小人位置以下的部分都捨棄掉，這樣可以減少搜索空間。但是這還是不夠，我們需要進一步去挖掘遊戲里的故事。小人和目標檯面基本上是關於屏幕中心對稱的位置的。這提供了一個非常好的思路去縮小搜索空間。假設屏幕解析度是（1280，720）的，小人底部的位置是（h1, w1),那麼關於中心對稱點的位置就是（1280 – h1， 720 – w1），以這個點為中心的一個邊長300的正方形內，我們再去多尺度搜索目標位置，就會又快有準了。效果見下圖，藍色框是（300，300）的搜索區域，紅色框是搜到的檯面，矩形中心就是目標點的坐標了。

加速的奇技淫巧（Fast-Search）

玩遊戲需要細心觀察。我們可以發現，小人上一次如果跳到檯面中心，那麼下一次目標檯面的中心會有一個白點，就像剛才所展示的圖裡的。更加細心的人會發現，白點的RGB值是（245，245，245），這就讓我找到了一個非常簡單並且高效的方式，就是直接去搜索這個白點，注意到白點是一個連通區域，像素值為（245，245，245）的像素個數穩定在280-310之間，所以我們可以利用這個去直接找到目標的位置。這種方式只在前一次跳到中心的時候可以用，不過沒有關係，我們每次都可以試一試這個不花時間的方法，不行再考慮多尺度搜索。

講到這裡，我們的方法已經可以運行的非常出色了，基本上是一個永動機。下面是用我的手機玩了一個半小時左右，跳了859次的狀態，我們的方法正確的計算出來了小人的位置和目標位置，不過我選擇狗帶了，因為手機卡的已經不行了。

以下是效果演示：

這裡有一個示例視頻，歡迎觀看!

視頻鏈接：https://v.vzuu.com/video/932359600779309056

到這裡就結束了嗎？那我們和業餘玩家有什麼區別？下面進入正經的學術時間，非戰鬥人員請迅速撤離！

CNN Coarse-to-Fine 模型

考慮到IOS設備由於屏幕抓取方案的限制（WebDriverAgent獲得的截圖經過了壓縮，圖像像素受損，不再是原來的像素值，原因不詳，歡迎了解詳情的小夥伴提出改進意見~）無法使用fast-search，同時為了兼容多解析度設備，我們使用卷積神經網路構建了一個更快更魯棒的目標檢測模型，下面分數據採集與預處理，coarse模型，fine模型，cascade四部分介紹我們的演算法。

數據採集與預處理

基於我們非常準確的multiscale-search、fast-search模型，我們採集了7次實驗數據，共計大約3000張屏幕截圖，每一張截圖均帶有目標位置標註，對於每一張圖，我們進行了兩種不同的預處理方式，並分別用於訓練coarse模型和fine模型，下面分別介紹兩種不同的預處理方式。

Coarse 模型數據預處理

由於每一張圖像中真正對於當前判斷有意義的區域只在屏幕中央位置，即人和目標物體所在的位置，因此，每一張截圖的上下兩部分都是沒有意義的，因此，我們將採集到的大小為1280*720的圖像沿x方向上下各截去320*720大小，只保留中心640*720的圖像作為訓練數據。

我們觀察到，遊戲中，每一次當小人落在目標物中心位置時，下一個目標物的中心會出現一個白色的圓點，

考慮到訓練數據中fast-search會產生大量有白點的數據，為了杜絕白色圓點對網路訓練的干擾，我們對每一張圖進行了去白點操作，具體做法是，用白點周圍的純色像素填充白點區域。

Fine 模型數據預處理

為了進一步提升模型的精度，我們為fine模型建立了數據集，對訓練集中的每一張圖，在目標點附近截取320*320大小的一塊作為訓練數據，

為了防止網路學到trivial的結果，我們對每一張圖增加了50像素的隨機偏移。fine模型數據同樣進行了去白點操作。

Coarse 模型

我們把這一問題看成了回歸問題，coarse模型使用一個卷積神經網路回歸目標的位置，

def forward(self,img,is_training,keep_prob,name='coarse'):
with tf.name_scope(name):
with tf.variable_scope(name):
out = self.conv2d('conv1',img,[3,3,self.input_channle,16],2)
# out = tf.layers.batch_normalization(out, name='bn1', training=is_training)
out = tf.nn.relu(out,name='relu1')
out = self.make_conv_bn_relu('conv2',out,[3,3,16,32],1,is_training)
out = tf.nn.max_pool(out,[1,2,2,1],[1,2,2,1],padding='SAME')
out = self.make_conv_bn_relu('conv3',out,[5,5,32,64],1,is_training)
out = tf.nn.max_pool(out,[1,2,2,1],[1,2,2,1],padding='SAME')
out = self.make_conv_bn_relu('conv4',out,[7,7,64,128],1,is_training)
out = tf.nn.max_pool(out,[1,2,2,1],[1,2,2,1],padding='SAME')
out = self.make_conv_bn_relu('conv5',out,[9,9,128,256],1,is_training)
out = tf.nn.max_pool(out,[1,2,2,1],[1,2,2,1],padding='SAME')
out = tf.reshape(out,[-1,256 * 20 * 23])
out = self.make_fc('fc1',out,[256 * 20 * 23,256],keep_prob)
out = self.make_fc('fc2',out,[256,2],keep_prob)
returnout

經過十小時的訓練，coarse模型在測試集上達到了6像素的精度，實際測試精度大約為10像素，在測試機器（MacBook Pro Retina, 15-inch, Mid 2015, 2.2 GHz Intel Core i7）上inference時間0.4秒。這一模型可以很輕鬆的拿到超過1k的分數，這已經遠遠超過了人類水平和絕大多數自動演算法的水平，日常娛樂完全夠用，不過，你認為我們就此為止那就大錯特錯了~

Fine 模型

fine模型結構與coarse模型類似，參數量稍大，fine模型作為對coarse模型的refine操作，

def forward(self,img,is_training,keep_prob,name='fine'):
with tf.name_scope(name):
with tf.variable_scope(name):
out = self.conv2d('conv1',img,[3,3,self.input_channle,16],2)
# out = tf.layers.batch_normalization(out, name='bn1', training=is_training)
out = tf.nn.relu(out,name='relu1')
out = self.make_conv_bn_relu('conv2',out,[3,3,16,64],1,is_training)
out = tf.nn.max_pool(out,[1,2,2,1],[1,2,2,1],padding='SAME')
out = self.make_conv_bn_relu('conv3',out,[5,5,64,128],1,is_training)
out = tf.nn.max_pool(out,[1,2,2,1],[1,2,2,1],padding='SAME')
out = self.make_conv_bn_relu('conv4',out,[7,7,128,256],1,is_training)
out = tf.nn.max_pool(out,[1,2,2,1],[1,2,2,1],padding='SAME')
out = self.make_conv_bn_relu('conv5',out,[9,9,256,512],1,is_training)
out = tf.nn.max_pool(out,[1,2,2,1],[1,2,2,1],padding='SAME')
out = tf.reshape(out,[-1,512 * 10 * 10])
out = self.make_fc('fc1',out,[512 * 10 * 10,512],keep_prob)
out = self.make_fc('fc2',out,[512,2],keep_prob)
returnout

經過十小時訓練，fine模型測試集精度達到了0.5像素，實際測試精度大約為1像素，在測試機器上的inference時間0.2秒。

Cascade

總體精度1像素左右，時間0.6秒。

總結

針對這一問題，我們利用AI和CV技術，提出了合適適用於IOS和Android設備的完整解決方案，稍有技術背景的用戶都可以實現成功配置、運行，我們提出了Multiscale-Search，Fast-Search，CNN Coarse-to-Fine三種解決這一問題的演算法，三種演算法相互配合，可以實現快速準確的搜索、跳躍，用戶針對自己的設備稍加調整跳躍參數即可接近實現「永動機」。講到這裡，似乎可以宣布，我們的工作terminate了這個問題，微信小遊戲跳一跳 game over！

友情提示：適度遊戲益腦，沉迷遊戲傷身，技術手段的樂趣在於技術本身而不在遊戲排名，希望大家理性對待遊戲排名和本文提出的技術，用遊戲娛樂自己的生活

聲明：本文提出的演算法及開源代碼符合MIT開源協議，以商業目的使用該演算法造成的一切後果須由使用者本人承擔

更多相關資訊可以關注西安華美校區，免費獲得java零基礎教程！額外附送excel教程！

你可能會喜歡