Medical Image Description Based on Multimodal Auxiliary Signals and Transformer

<table class="table-group" id="tab3"><tr><td><table class="table"><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr class="thead"><td class="align_left"> </td><td class="align_center">BLEU1</td><td class="align_center">BLEU2</td><td class="align_center">BLEU3</td><td class="align_center">BLEU4</td><td class="align_center">METEOR</td><td class="align_center"><svg height="12.1541pt" id="M51" style="vertical-align:-3.400761pt" version="1.1" viewbox="-0.0498162 -8.75334 50.1399 12.1541" width="50.1399pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M631 18C609 24 585 35 559 65C534 91 514 117 478 169C448 214 406 281 389 313C462 346 516 399 516 485C516 545 490 590 449 616C412 641 363 650 290 650H42V622C120 615 128 612 128 527V125C128 40 120 34 38 28V0H300V28C221 34 212 40 212 125V284H244C295 284 312 272 329 244C359 195 395 133 430 84C475 19 516 -3 592 -7C603 -8 615 -8 627 -8L631 18ZM212 316V563C212 591 215 602 223 607C231 613 248 617 277 617C352 617 423 577 423 469C423 415 407 375 368 345C343 324 310 316 260 316H212Z"></path></g><g transform="matrix(.013,0,0,-0.013,7.969,0)"><path d="M381 665C170 665 44 498 44 318C44 125 188 -15 369 -15C552 -15 703 117 703 333C703 534 550 665 381 665ZM359 629C491 629 601 517 601 306C601 114 502 21 390 21C249 21 146 158 146 346S248 629 359 629Z"></path></g><g transform="matrix(.013,0,0,-0.013,17.549,0)"><path d="M716 650H478V622C549 617 570 605 575 566C579 535 582 493 582 401V326C582 161 537 40 393 40C269 40 205 133 205 294V521C205 611 213 617 291 622V650H33V622C111 615 120 611 120 521V272C120 154 148 80 208 34C252 0 309 -14 368 -14C434 -14 501 7 548 55C605 116 623 201 623 319V401C623 493 626 536 629 563C633 605 656 618 716 622V650Z"></path></g><g transform="matrix(.013,0,0,-0.013,27.117,0)"><path d="M692 302H438V274C537 267 543 260 543 188V103C543 61 531 48 511 37C489 26 458 20 424 20C231 20 146 188 146 333C146 517 258 630 411 630C507 630 582 597 606 474L634 480C627 546 622 601 619 636C586 643 510 665 426 665C230 665 44 552 44 321C44 122 191 -15 411 -15C491 -15 573 7 635 21C629 49 628 81 628 116V202C628 261 632 266 692 274V302Z"></path></g><g transform="matrix(.013,0,0,-0.013,36.412,0)"><path d="M517 162C503 123 484 88 467 68C445 42 417 34 341 34C291 34 256 34 237 47C219 59 213 81 213 128V317H308C395 317 402 311 415 240H444V431H415C403 364 398 356 307 356H213V584C213 613 215 616 246 616H322C394 616 421 609 435 587C448 566 458 544 467 502L496 506C493 557 488 625 488 650H42V622C120 616 128 612 128 523V125C128 43 120 35 29 28V0H511C520 31 540 125 546 158L517 162Z"></path></g><g transform="matrix(.0091,0,0,-0.0091,43.961,3.132)"><path d="M556 236V289H56V236H556Z"></path></g></svg>L</td></tr><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr><td class="align_left">ResNet-101</td><td class="align_center"><b>0.505</b></td><td class="align_center"><b>0.318</b></td><td class="align_center"><b>0.219</b></td><td class="align_center"><b>0.159</b></td><td class="align_center">0.195</td><td class="align_center"><b>0.383</b></td></tr><tr><td class="align_left">ResNet-152</td><td class="align_center">0.489</td><td class="align_center">0.310</td><td class="align_center">0.219</td><td class="align_center">0.157</td><td class="align_center"><b>0.210</b></td><td class="align_center">0.375</td></tr><tr><td class="align_left">ResNet_101_32 × 8d</td><td class="align_center">0.493</td><td class="align_center">0.306</td><td class="align_center">0.203</td><td class="align_center">0.137</td><td class="align_center">0.198</td><td class="align_center">0.366</td></tr><tr><td class="align_left">wide_ResNet-101_2</td><td class="align_center">0.499</td><td class="align_center">0.309</td><td class="align_center">0.206</td><td class="align_center">0.143</td><td class="align_center">0.198</td><td class="align_center">0.346</td></tr><tr class="table-tr"><td colspan="7"><hr class="tbody-hr"/></td></tr></table></td></tr><tr class="table-fn"><td><div>The bold values indicate that the model performance of the algorithm is optimal in a certain type of dataset.<br/></div></td></tr></table>

<div>Performance of different feature extraction networks.</div>

International Journal of Intelligent Systems

tab3

Table 3

Table 3: Medical Image Description Based on Multimodal Auxiliary Signals and Transformer