
wwdok (weida wang) - GitHub
wwdok has 41 repositories available. Follow their code on GitHub.
wwdok - 知乎
加速扩散模型的方法有很多种,有渐进式蒸馏、对抗训练、LCM等等,但今年5月份新出的PeRFlow,似乎效果和速度都很好! 要说PeRFlow还得先从Rectified Flow说起。 去 …
wwdok/faster-whisper-webui-cn - GitHub
To detect different speakers in the audio, you can use the whisper-diarization application. Download the JSON file after running Whisper on an audio file, and then run app.py in the …
GitHub - wwdok/SadTalker_ModelScope: Use one line code to …
modelscope托管的仓库: https://modelscope.cn/models/wwd123/sadtalker (是本github仓库的精减版,两处的代码有轻微的不同。 该仓库主要分为两种使用方式,第一种运行时跑的是本仓 …
扩散模型中的v-prediction推导 - 知乎 - 知乎专栏
v代表velocity(速度),也就是说扩散模型输出的是预测的速度,v-prediction来源于论文《PROGRESSIVE DISTILLATION FOR FAST SAMPLING OF DIFFUSION MODELS》,这篇论 …
通俗易懂地理解Gumbel Softmax - 知乎 - 知乎专栏
基于前人们的知识成果积累,论文 《Categorical Reparameterization with Gumbel-Softmax》 的作者还真找到了解决方法, 第一个问题的方法是使用Gumbel Max Trick,第二个问题的方法 …
wwdok’s gists · GitHub
Instantly share code, notes, and snippets. Split images and labels together to train/val/test dataset. After running this script, there will be train/val/test three folders inside imageDir and …
多模态论文串讲·上【论文精读·46】 - 哔 ... - 哔哩哔哩
2023年5月30日 · ViLT论文里的这张图展示了多模态模型的发展历程,最开始的模型特点是Visual Encoder最大,Textual Encoder第二大,Modality Interaction是对文本特征和图像特征做一个 …
wwdok的个人空间-wwdok个人主页-哔哩哔哩视频
哔哩哔哩wwdok的个人空间,提供wwdok分享的视频、音频、文章、动态、收藏等内容,关注wwdok账号,第一时间了解UP主动态。 知乎:https://www.zhihu.com/people/wang-wei-78 …
wwdok - 知乎
2024年8月18日 · 一、介绍 Stable Fast 3D,由 Stability AI 推出,是一项颠覆性的 3D 建模技术,它通过 AI 算法将单张图片迅速转换为高质量的 3D 模型,极大地缩短了传统 3D 建模的时 …
- 某些结果已被删除