1. AI绘图
- Midjourney:Midjourney 操作简单,生成的图像质量出色,主要用于生成概念性强的图像,但难以精细控制细节。Midjourney 通过 Discord 进行操作,并提供付费使用。
- Stable Diffusion (SD):与 Midjourney 不同,Stable Diffusion 提供了更多的图像控制选项。用户可以使用插件(如 ControlNet)来精确控制图像的生成。它适用于需要高定制化和控制的场景,如电商设计、室内设计等。
- DALL·E 3:OpenAI 开发的 DALL·E 3 在理解文本描述的复杂性方面有强大优势,特别是在处理复杂信息时,能够生成更为精确的图像。
2. 大语言模型
- ChatGPT (OpenAI):目前最流行的AI语言模型,能够处理多种任务,包括文章总结、翻译、编写文案等。最新的 GPT-4 还支持多模态(图片识别、生成图像、生成语音等)。
- Gemini (Google):Google 推出的 Gemini 是 ChatGPT 的竞争产品,分为多个版本(如 Gemini Pro、Gemini Ultra)。尽管其性能接近 ChatGPT,但在某些细节处理上略逊一筹。
3. AI生成视频
- Stable Video Diffusion:这是由 Stable Diffusion 开发的图生视频模型,能够从图像生成视频,且操作简单,适合初学者。但视频的流畅度和质量尚待提升。
- 其他工具如 Runway、Pica、DOMO AI 等,提供视频转绘、图生视频等功能,但目前这些技术的生成效果与专业视频制作仍有较大差距。
4. AI生成语音
- Eleven Labs:目前最强大的文本转语音和语音翻译工具之一,生成的语音自然度高,适合多语种的转换。特别是英文语音效果较佳。
- 黑镇:该公司以数字人和面部同步技术著称,能够将语音翻译和面部口型匹配结合,生成的语音和视频更加逼真,但中文支持较弱。