输入一张照片,和文字,就可以得到一个播报该文字的数字人
也可以结合下面的流,克隆声音,这样就能得到一个“声音” “文字” “形象” 都高度自定义的数字人了
打开工作流
下载
节点信息
Primitive Nodes (1)
LoadImage
Custom Nodes (8)
CosyVoiceNode
Echo_LoadModel
Echo_Sampler
JWImageResizeToSquare
PreviewAudio
SaveAudio
TextNode
VHS_VideoCombine
这个时间的长度在哪里设置,好像只有5秒
sampler 里有个length