浅谈人工智能生成内容（AIGC）

333 阅读 0 评论 220 点赞

我是靠谱客的博主虚幻缘分，这篇文章主要介绍浅谈人工智能生成内容（AIGC），现在分享给大家，希望可以做个参考。

兴趣了解

[OpenAI ]人工智能绘画产品 DALL·E: 在计算机上输入一句话，DALL·E 就能够理解这句话、然后自动生成一幅意思相应的图像，且该图像是全网首发、独一无二。
[谷歌 ] 5400 亿参数大模型 PaLM: PaLM 的文本理解能力与逻辑推理能力大幅提升，甚至可以用文本解释笑话，告诉读者为什么这个笑话好笑。

AIGC 是GAN基础上的一次飞跃提升。

DALL.E 背后的关键技术：CLIP
CLIP 让文字与图片两个模态找到能够对话的交界点，成为 DALL·E、DALL·E 2.0、Stable Diffusion 等突破性 AI 成果的基石。

相关团队：

何恺明团队：在CLIP出来之后，提出的一种AI范式MAE，可以将在语言任务上表现优秀的能力迁移到视觉任务的处理上。
心辰科技（盗梦师团队）创始人蓝振忠：在Stable Diffusion 推出之后，只用了不到一个月的时间就上线 AI 作画产品“盗梦师”，并迅速在国内火起来，出图速度短至 1 秒，而且绘画质量非常高，日留存率接近50%（高于 90% 的小程序），不到两个月就接到了 To B 的大订单

“盗梦师” 生成的图像作品：“阳光明媚的下午，奶奶躺在摇椅上晒太阳” ↓

相似产品：

Midjourney

助力领域：

自媒体 KOL
插画师群体与图文创作者

推荐阅读

《 AIGC 白皮书》

AIGC的衍生分支：

文本生成
视频生成
音乐生成

哪些东西助力了 AIGC的发展：

大模型
多模态
可控制

文字生成的商用公司：

Jasper.ai
Copy.ai
开发了机器自动写作平台，用户输入关键字、AI 只需几分钟就能写成一篇逻辑与表达不输人类的长文，用于替代写作过程中的大量劳动，并能兑换出商业价值。

文字与图像的多模态研究大体可以分为三个阶段 ：
1、图文描述（让计算机描述画中的事情）；
2、图文问答（给一张图片，问这个图片里的桌子上都有什么东西。机器人需要理解问题，再了解图片里都是些什么东西）；
3、用一句话生成图片（让机器人通过一句话的描述作画）

AIGC 可以从来做什么？

比如电商平台的服装上新，目前的模式是线下拍摄，需要化妆师、服装师、摄影师、模特等等，而在未来的 AIGC 世界中，他们希望用 AI 直接生成能展示服装的模特图像。
现在，他们的 AIGC 产品“ YUAN 初”小程序已经在图像编辑上取得惊人的效果：
比如设计行业，小到海报、PPT、网页，大到所有商品的外包装、插画等对原创素材要求高的应用，都有 AIGC 的用武之地。
在没有 AIGC 之前，建筑设计师是先用铅笔画草图，画完之后觉得好看再弄成彩铅，彩铅版本满意后再做一个 3D 的视觉效果图给甲方客户看，甲方满意再设计建筑里面的工程结构等等。而有了 AIGC 之后，他们从第一步就极大地节省了时间，快速将设计师脑海中的方案用 AI 生成出来，发给甲方看。

ZMO.AI 是国内最早成立的 AIGC 公司之一。

AIGC存在的困难：
以文本生成为例，AIGC 的商业变现实际十分依赖用户驱动。但目前国内的中文语言大模型在开源一块缺少高质量的语料数据，导致中文版的 AI 在不同话题的写作质量上参差不齐；同时，国内的文字从业者在人力成本上普遍低于海外欧美发达国家，AIGC 在内容生成一块替代人力的节约成本也明显低于海外市场。