Hybrid Online and Offline Reinforcement Learning for Tibetan Jiu Chess

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="2"><hr/></td></tr><tr class="thead"><td class="align_left">Toolkit package</td><td class="align_center">CNTK 2.7</td></tr><tr><td class="thead-hr" colspan="2"><hr/></td></tr><tr><td class="align_left">Runtime</td><td class="align_center">.Net 4.7.2</td></tr><tr><td class="align_left">Operating system</td><td class="align_center">Windows 10</td></tr><tr><td class="align_left">Central processing unit</td><td class="align_center">AMD 2700X@4.0 GHz</td></tr><tr><td class="align_left">Random access memory</td><td class="align_center">32 GB</td></tr><tr><td class="align_left">Graphics processing unit</td><td class="align_center">RTX2070</td></tr><tr><td class="align_left">Threads used</td><td class="align_center">16</td></tr><tr><td class="align_left">Development environment</td><td class="align_center">Visual Studio 2017 Community</td></tr><tr><td class="align_left"><span style="width: 21.0359ptpx;"><svg height="11.3254pt" id="M101" style="vertical-align:-5.364491pt" version="1.1" viewbox="-0.0498162 -5.96091 21.0359 11.3254" width="21.0359pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M383 397C383 424 344 448 299 448C244 448 172 409 132 375C66 319 23 227 23 146C23 42 74 -12 146 -12C208 -12 298 30 359 103L343 124C315 95 248 48 192 48C145 48 111 85 111 163C111 228 129 294 151 330C171 363 201 401 241 401C275 401 302 384 325 356C332 347 339 344 348 348C373 360 383 381 383 397Z"></path></g><g transform="matrix(.0091,0,0,-0.0091,4.173,3.132)"><path d="M169 380V459C122 440 66 423 24 416V392C86 384 90 382 90 317V-135C90 -201 81 -207 17 -213V-240H253V-213C176 -207 169 -201 169 -125V6C182 -1 208 -11 238 -12C368 12 487 109 487 260C487 358 421 449 310 449C298 449 279 444 261 433L169 380ZM169 346C196 367 237 389 269 389C341 389 403 329 403 221C403 109 347 37 263 37C228 37 191 53 169 76V346Z"></path></g><g transform="matrix(.0091,0,0,-0.0091,8.841,3.132)"><path d="M518 50L491 51C452 54 444 60 444 110V444C429 441 405 437 377 434C348 430 314 427 287 426V403L323 397C356 392 365 386 365 333V99C331 66 293 51 257 51C212 51 169 75 169 164V299C169 366 169 413 172 444C156 441 128 437 101 433C75 430 50 427 29 426V403L57 397C82 391 90 386 90 333V137C90 29 147 -12 214 -12C241 -12 262 -4 291 13S342 48 365 65V-6L371 -12C390 -7 415 1 441 8C468 15 496 21 518 24V50Z"></path></g><g transform="matrix(.0091,0,0,-0.0091,13.673,3.132)"><path d="M390 111C344 68 312 56 269 56C212 56 118 102 118 241C118 346 175 401 241 401C277 401 312 388 342 360C350 352 355 349 361 349C372 349 394 371 394 392C394 403 391 411 378 422C362 436 329 449 288 449H287C250 449 190 432 138 392C71 341 37 274 37 197C37 90 112 -12 238 -12C297 -12 363 32 407 90L390 111Z"></path></g><g transform="matrix(.0091,0,0,-0.0091,17.586,3.132)"><path d="M298 36L289 62C276 55 253 45 228 45C202 45 169 60 169 141V397H276C289 405 292 426 282 437H169V574L155 576L90 509V437H45L17 408L21 397H90V107C90 28 125 -12 188 -12C198 -12 213 -8 230 1L298 36Z"></path></g></svg></span></td><td class="align_center">0.1</td></tr><tr><td class="align_left">Step</td><td class="align_center">200</td></tr><tr><td class="align_left">Learning rate</td><td class="align_center">0.001</td></tr><tr><td class="align_left"><svg height="9.39034pt" id="M102" style="vertical-align:-3.42943pt" version="1.1" viewbox="-0.0498162 -5.96091 6.63704 9.39034" width="6.63704pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M478 372C478 418 458 448 431 448C409 448 389 431 389 410C389 404 391 400 394 395C398 388 406 371 406 348C406 253 308 122 251 51H249C254 122 249 257 231 336C212 421 189 448 159 448C126 448 75 412 23 327L48 306C83 354 103 371 115 371C125 371 134 360 144 334C185 224 192 64 183 -19C146 -100 116 -202 110 -244L125 -261C154 -259 208 -234 222 -220C222 -194 225 -84 235 -23C247 -3 273 36 308 79C379 165 478 288 478 372Z"></path></g></svg>(Q-learning)</td><td class="align_center">0.628</td></tr><tr><td class="align_left"><svg height="9.39034pt" id="M103" style="vertical-align:-3.42943pt" version="1.1" viewbox="-0.0498162 -5.96091 6.63704 9.39034" width="6.63704pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M478 372C478 418 458 448 431 448C409 448 389 431 389 410C389 404 391 400 394 395C398 388 406 371 406 348C406 253 308 122 251 51H249C254 122 249 257 231 336C212 421 189 448 159 448C126 448 75 412 23 327L48 306C83 354 103 371 115 371C125 371 134 360 144 334C185 224 192 64 183 -19C146 -100 116 -202 110 -244L125 -261C154 -259 208 -234 222 -220C222 -194 225 -84 235 -23C247 -3 273 36 308 79C379 165 478 288 478 372Z"></path></g></svg>(SARSA<span class="nowrap"><svg height="11.5564pt" id="M104" style="vertical-align:-2.26807pt" version="1.1" viewbox="-0.0498162 -9.28833 16.3323 11.5564" width="16.3323pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M300 -147C201 -63 143 98 143 270S200 602 300 686L282 710C136 610 70 450 70 271V270C70 89 136 -72 282 -170L300 -147Z"></path></g><g transform="matrix(.013,0,0,-0.013,4.498,0)"><path d="M529 97L508 118C475 75 449 58 438 58C428 58 421 66 415 104C393 234 374 403 364 496C345 670 307 712 254 712C220 712 174 691 153 669L161 645C176 653 194 658 206 658C237 658 261 640 278 562C287 522 290 483 293 434C223 269 110 105 23 9L32 -12C59 -6 85 0 108 7C152 64 251 252 300 366C307 297 315 221 337 82C346 24 363 -12 393 -12C425 -12 475 13 529 97Z"></path></g><g transform="matrix(.013,0,0,-0.013,11.672,0)"><path d="M275 270C275 450 212 609 64 710L45 686C145 604 203 442 203 270S147 -63 45 -147L64 -170C213 -68 275 89 275 270Z"></path></g></svg>)</span></td><td class="align_center">0.372</td></tr><tr class="table-tr"><td colspan="2"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

Complexity

tab1

Table 1

Table 1: Hybrid Online and Offline Reinforcement Learning for Tibetan Jiu Chess