Research on Video Captioning Based on Multifeature Fusion

<div>Three-dimensional convolution and two-stream expansion 3D convolution network structure. (a) 3D Incception V1. (b) I3D.</div>

Computational Intelligence and Neuroscience

Figure 5: Research on Video Captioning Based on Multifeature Fusion