clip阶段sync loss的问题 #118

liwang0621 · 2024-06-11T08:22:34Z

看https://github.com/MRzzm/DINet/blob/master/dataset/dataset_DINet_clip.py#L43
source_image_data取的是每个clip的2到7帧，但是计算sync loss使用到的音频特征是整个片段9帧的音频特征（deep_speech_full），这部分会有问题吗，音频特征（deep_speech_full）需要也对边变成取2:7真的音频特征不

A11enCheung · 2024-06-17T02:24:38Z

不用，按照它这种方法训练是可以训练出来的，至于为什么作者也没有详细说

sunjian2015 · 2024-06-22T03:41:41Z

同样的疑问

maggiez0138 · 2024-10-10T13:58:16Z

猜测这种用法是因为：
1）Frame训练阶段，每个frame给定的驱动音频为(5, 29)的DeepSpeech特征；看着是1个视频帧，采用前后5帧对应的音频feature来驱动。
2) 所以，对应Clip阶段，训练 (2, 2+5)阶段的video frames时，对应的音频也是(2+5+2)总共9帧，也就是一个clip的音频特征；
3）整体看着Clip中，一个clip中，0,1,7,8这几个video frames其实都不太会参与训练，对数据集可能会有点浪费？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

clip阶段sync loss的问题 #118

clip阶段sync loss的问题 #118

liwang0621 commented Jun 11, 2024

A11enCheung commented Jun 17, 2024

sunjian2015 commented Jun 22, 2024

maggiez0138 commented Oct 10, 2024

clip阶段sync loss的问题 #118

clip阶段sync loss的问题 #118

Comments

liwang0621 commented Jun 11, 2024

A11enCheung commented Jun 17, 2024

sunjian2015 commented Jun 22, 2024

maggiez0138 commented Oct 10, 2024