ai绘画的水平已经颠覆大家认知 ai绘画到底有多离谱
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
最近,AI绘画刷爆了我的朋友圈。不管你脑洞有多大,只要你输入几个描述性的关键词,几秒钟就能得到一幅极具视觉冲击力的画作。这段时间,我也看到不少朋友晒出了“自己的”作品,还有人宣称“AI绘画元年已至。”
相信很多人都很好奇,AI绘画的水平究竟怎么样?我花了一周时间深度测评后,想和你聊聊:
你可以按这个目录,直接滑到感兴趣的部分~
因为AI有非常庞大的训练数据库,能轻而易举地实现几十个画家风格和各种元素的整合,而且还不会受人的思维桎梏,所以我们也能看一些非常有想象力的作品。
比如下面这些AI生成的场景,真的有惊艳到我,分享给大家一起来看看:
这两年AI作画技术的发展非常快,还出现了不少辅助工具,比如下面这款基于Stable Diffusion的插件:
我们在Photoshop中可以随时通过输入关键词的方式,用AI生成的内容填补画布上的空白,然后直接用画笔在上面修改,极大地提高了二创的效率。甚至因此还诞生了一个新职业:提示工程师,说人话就是普通人和AI绘画算法之间的“翻译”。
如果我们把AI画画,当作完成创意的一个中间环节,想象空间还是非常大的。比如插画师 Nerko 先用 Midjourney 生成自己想要的素材,然后再将这些局部组装起来,直接把AI变成生产力!
但是,想要生成一幅满意的作品,远没有你想的那么简单。因为AI生成画作时,需要依靠上亿的图像文本和已有画作来作为参考。
比如熊市(Bear Market),AI只能理解字面意思,于是就画成了这样:
再比如想要生成一个“卧虎藏龙”的电影海报,那AI真的是很直接,桌子下卧着一只老虎,桌子上藏着一条小暴龙:
另外同样的描述语,输入不同关键词、艺术流派、风格,能够得到上百种结果,每次AI生成作品时就像开盲盒一样刺激。
比如前段时间获得美国绘画比赛的一等奖的AI作品《Théatre D'opéra Spatial》(太空歌剧院),我们大多数人知道的是它拿奖了,但不知道的是,这幅作品经过了近900次的迭代,数周的挑选与调整,才有了下图所示的效果。
所以,目前的AI技术还是有不少局限性的,我们所看到的那些优秀作品,可能经过了上百次的参数调节,而且它在艺术领域适用性更广一些,其他方面偏弱。接着,我们来聊一个更现实的问题。
最近看到墨尔本作家节与广告公司合作,用AI生成了一些宣传海报,看起来就还挺有感觉的:
作为电商设计师,商品宣传海报,应该是大家平时做得最多的吧?我们也来看看不同AI生成的效果图,能不能给到我们一些灵感。
测试方法很简单,我们用几组完全相同的描述,分别输入到不同的AI软件中,对比一下生成结果。
第一组就先来个简单点的,描述是:家用电器宣传海报
这应该是个洗衣机吧?有点可爱啊。
各类家用电器都有了,但这全堆砌在一起,是集中大甩卖吗?
晃眼一看,可能觉得像那回事儿,但细看哪哪都不对了...
这组看起来都有些一言难尽啊.....不死心的我又试了一些,比如在亚马逊森林里有一个巨大的背包,挑了几张还能看的:
看这个效果,咱们还是自己做吧,站酷的设计师们个个能甩AI十条街!
AI做商品海报,为什么效果不行呢?主要还是因为这些主流平台没有给AI提供电商方面的素材,AI还没到学习到电商的风格。所以,我们就不为难AI了。
接着再试下海报合成,我们输入描述语:一个巨型高达正在战斗,背景是模糊城市场景,赛博朋克。
from:一格
from:6pen
from:Midjourney
这组作品里,6pen对赛博朋克的理解更好一些,构图和氛围都比较好;Midjourney的战斗氛围更足,天空上还多了盘旋的战机,细节到位。
不得不说,AI花几分钟做出来的,跟设计师花几百分钟做出来的合成一对比,效果真是天差地别:
接着我们再来试试看,AI能不能帮我们完成设计草图的情绪板部分。这里就拿我们之前给华美食品做的中秋活动视觉策划项目来测试一下,希望AI能为我们提供一些场景方面的创意灵感。
在这份草图中,我们融合了多种元素和场景,我们先看看“一群年轻人站在天桥上赏月,背后的高楼大厦霓虹闪烁”会出来什么样的画面:
可以看到,AI生成出来的图片没法直接用,也少了一些相关的画面元素。在经过一系列测试后,我们发现AI目前还不能一次性生成复杂场景。
后来我们又试着把画面的元素拆来测试,得到的一些场景图,局部还是能用一下的。比如我们草图中的背景城市,想要一个赛博朋克风格,AI生成出来的画面还挺合适。
再比如草图中的天桥,我们可以用AI重复生成很多种风格,它出来的画面也是比较完整丰富的,也能给我们一些参考:
所以,如果想要AI替我们工作,我们可以试着把画面拆得更细一点,甚至直接给AI提供一些参考图,指定你想要的画面和风格,这样AI生成出来的图片才会更贴合你的需求。
当我们在跟甲方爸爸对接需求、脑暴想idea的时候,也可以借助AI的智慧,生成不同风格的一些参考图,帮助我们更快地寻找灵感。
画完草图后,我们也可以用AI来补全画面细节,省去不必要的人力。现在也有了一些好用的AI工具:
另外,我们也可以在AI画画的基础进行二次创作,比如在合成时,直接用AI生成的图片来作为远景贴图:
还有朋友发现,用AI生成的游戏icon效果也不错:
所以,就目前而言,AI绘画更多还是专业人士的工具。但是,我们还是可以抱有期待的,万一哪天,当AI算法成熟到一定阶段,然后突然来个小机灵鬼,给AI喂养一堆电商海报作品,说不定电商设计就卷进AI圈了呢?
再比如Disco Diffusion, 渲染生成的图像,版权归图片创作者本人所有。
那权归创作者所有的图片,能直接商用吗?理论上可以,实际应用有风险,千万要谨慎啊!
比如你给AI的描述语关键词里面,涉及到风格特别鲜明的艺术家或者商业作品,那生成的图片风格相似度很高,就会涉及到侵权的问题,而AI工具可不会为此负责。
聊了这么多,有朋友可能迫不及待地想尝试一下了,接下来就告诉你在哪可以玩、怎么玩。
首先说一下,AI绘画工具实在太多了,据不完全统计:
DALL・E、Tiamat、Stable Diffusion、Disco Diffusion、Blender、AutoDraw、Imagen、Parti、NUWA、Make A Scene、6pen、paintschainer、Anime Facegan、NVIDIA Canvas....
我花了近一周的时间来玩认真测评,最后从已经开放公测的工具中,筛选出了5款学习门槛低,操作简单,还能免费白嫖的AI绘画神器。
有的朋友可能会问,为什么没有Stable、DALLE2这种大热门产品? 讲真,不同AI程序各有所长,真的太难取舍了,为此我头秃了一下午......
最后我决定,这次先给还没玩过AI绘画的新手朋友,一些快速上手的方法,以及AI的使用技巧。希望玩过的朋友,也可以留言分享一些你的经验~
工具特点:搭载在Discord上使用
新手友好程度:
方便程度:
优点:出图品质高,可以不断深化
缺点:免费版只能生成25张图
费用:免费
具体怎么玩呢?我们先准备一个科学上网工具,然后在谷歌上搜索 Midjourney,第一个就是官网,打开后可以借助谷歌翻译来理解。
”入门“是一定要看的,里面有一些基础教程,告诉你怎么写描述,才能生成很牛B的图:
还有一些常见问题的解答,比如怎样改分辨率、套用别人的描述:
其他后面慢慢摸索,我们点”加入测试版“后,会先链接 Discord 平台,按页面提示注册、手机号和邮箱验证一下;然后回到 Midjourney 首页,再次点击”加入测试版“,接受邀请后,进入 newbies 的频道后就可以玩了。
你有什么想要生成的画面吗?正好窗外在下雨,我就临时想了个雨中的旧城.... 在聊天框输入描述语,很快就能看到了4张示例图:
粗看感觉第三张还不错,我们深化一下这张图,看看效果对比:
有一说一,这效果还真不错噢!不过呢,新用户只有25次免费生成的机会,还没尽兴就结束了orz......
当然你也可以多搞几个账号来玩,如果觉得麻烦,你也可以直接氪金,小氪10美元/月能生成200张图,大氪30美元/月,适合舍得花钱的朋友。
如果你想把AI绘图作为一个生产力的话,可以考虑。
从首页的”社区展示“中可以看到,Midjourney 在人像处理、写实场景、创意合成、概念插画这块的表现都很不错。
工具特点:无需注册就可以使用
新手友好程度:
方便程度:
优点:简单好上手,出图快
缺点:有小广告,生成图片偏抽象
费用:免费
这款有APP和网页版,在安卓和IOS两个平台上都能搜索到,但同样要有科学上网工具~打开APP后,我们都不用注册,直接点中间的加号就可以开始玩了:
操作也很简单,总共就3~4步:
1.先在 Enter prompt 输入图片的描述
2.接着 Choose an art style 选择你想要的艺术风格,如果没有你想要的就滑到后面选 no style,也就是不加风格化的处理
3.然后你可以按情况按心情,选择要不要给AI一个参考图,如果不想传直接忽略 Input image
4.最后点 Creat 几秒就可以出片了 我们还用刚刚的描述,雨中的旧城,看看 wombo 的作品:
...略显艺术,感觉不太行啊......不过没关系,我们点图片中间的 Generate again 重新生成:
重来了十多次吧,最后选出这几张......你们觉得咋样?跟雨中的旧城搭吗?
第二天,我又用同一组描述,试了一些不同的艺术风格:
感觉呈现效果比较单一,房子结构也比较乱,可能会更适合创建一些超自然的场景。
另外,wombo有个缺点就是,只能生成竖版图,分辨率也不高。或许也是因为免费,它每生成4-5张就会跳出小广告,这点体验不是很好。如果想氪金最低39.9美元/月,比 Midjourney 还贵不少。
工具特点:国产软件
新手友好程度:
方便程度:
优点:操作简单,有手就行
缺点:一次只能生成一个任务
费用:免费
这款是国产的,直接打开网站扫码登陆一下,然后输入画面描述,选择类型和风格,按提示操作后点击生成就行。
如果你想更快地看到图,就选南瓜模式,一般5分钟内就出来了;新上线的StableDiffusion会稍微慢一些,通常是8-20分钟左右,如果想氪金选Pro通道。
这次用什么描述语呢?要不试试周杰伦新歌的歌词吧!
描述语:小船静静往返马蒂斯的海岸
哎哟,感觉还可以啊,画面基本符合文字描述。后来我又用它生成了一些场景图,效果也都还不错:
描述语:夜晚的香榭丽舍大道
描述语:黑暗哥特式城堡
描述语:风景如画的梦幻村庄
工具特点:国产软件
新手友好程度:
方便程度:
12个现实世界中的机器学习真相
现实中机器人,现实中有哪些机器人点击上方“小白学视觉”,选择加"星标"或“置顶”
作者:Delip
编译:ronghuaiyang
导读
当你在现实世界中工作时,有几个事实是你必须面对的,这也是本文的主要内容。
上个月,我在一个亲密的朋友聚会上做了一个非正式的演讲,我把这个题目记下来。这篇文章主要是写给那些使用机器学习来构造东西的人,而不是那些研究机器学习的人,尽管后一组人会很好地倾听这些真理并反省他们的工作。
0. 你不是一个科学家
是的,虽然你们的 title 是“科学家”,包括你们所有拥有博士学位的人,以及涉足这个行业的学者。但是,机器学习(以及其他人工智能应用领域,如 NLP、视觉、语音……)是一门工程研究学科(与科学研究相对)。
你会问,科学研究和工程研究有什么区别?George A. Hazelrigg 在他的“HONING YOUR PROPOSAL WRITING SKILLS”中写道:
一些科学家会学习如何制定研究计划。很少有工程师是博士级别的工程师。让我们先试着理解科学研究和工程研究之间的区别。对我来说,区别很明显。科学家力图了解大自然的本质,以了解其根本的本质。为了做到这一点,科学家通常剥离无关的影响,深入到一个非常狭窄的自然元素。这就是我们所说的自然法则:能量和质量是一样的,每一个作用力都有一个大小相等、方向相反的反作用力,依此类推。有许多自然法则,它们随时随地都适用。工程师遵循自然法则。他们别无选择。他们的目标是设计出在自然允许的范围内工作的东西。要做到这一点,他们必须能够预测系统的行为。所以工程师们面临的一个大问题是,我们如何理解和预测一个系统的行为,在这个系统中,所有的自然法则在任何时候都适用于任何地方。这是一个整合的问题,它就像找到一开始的规律一样困难。每时每刻把所有的自然规律都考虑进去是不可能的。因此,工程师必须找到方法来确定哪些定律是重要的,哪些可以忽略,以及如何近似那些在时间和空间上都很重要的定律。工程师不仅仅是预测未来。他们做出的决定部分是基于他们的预测,因为他们知道自己的预测不可能既准确又确定。理解和应用数学也很重要。这包括概率论、决策理论、博弈论、最优化、控制理论和其他数学在工程决策环境中的应用。这也是一个合理的工程研究领域。
作为 ML 的研究人员和实践者,你必须考虑你拥有的数据的正确模型,而不是你拥有的模型的正确数据集(就像许多研究论文一样)。如果你曾经问过“这个模型的正确数据集是什么”,那么你并不是在现实世界中。到底什么是真实的世界?在现实世界中,你对要处理的数据是没有选择的。在这里,数据定义了问题,而不是相反。有时,在现实世界中,ML 实践者创建了一个自己的世界作为他们的建模游乐场,从而假装他们是“科学家”,例如“发明”一种用于做 NLP 的语言,或者通过简化假设来创建封闭的环境来强化学习。这些研究得出了有趣的结果,但它们的范围仅限于它们所来自的世界,即使研究人员喜欢在论文中把它们当作适用于现实世界的东西来兜售。在现实世界中,输入的分布更有可能发生变化,长尾的“curve balls”不知从何而来,你并不总是有答案。
当你在现实世界中工作时,有几个事实是你必须面对的,这也是本文的主要内容。但这个开场白是必不可少的。如果你在现实世界中做 ML 研究,你是工程师而不是科学家。
1. 需要可以工作
虽然这听起来很简单,但我很惊讶有多少人,不管是新手还是有经验的人,都被一些听起来很花哨的名字吸引住了,或者因为一些东西来自 DeepMind、OpenAI、斯坦福大学、麻省理工学院等等。如果你的模型确实只能够在它们的环境和资源约束下处理他们的数据集和,那么现实世界将无情地拒绝它。arXiv 上的许多结果只能在少数数据集上工作,或者只能在只有谷歌基础设施支持的百兆级 gpu 上工作。帮社区一个忙,不要再发布那些一般性的结果了。它必须能工作。这也是为什么我们今天不考虑在没有卷积神经网络的计算机视觉中做任何事情,或者为什么我们很容易在序列模型中使用注意力的原因。它必须要能工作。
推测:这么多人,特别是 ML 的新手,被花哨的模型名称冲昏了头脑,迫不及待地想要尝试它们,或者写关于它们的博客帖子,等等。我觉得这就像一个初学写作的人。他们认为使用华丽的词语会使他们的写作更好,但经验会告诉他们其他的。
2. 无论你如何努力,无论你的优先级是什么,你都不能提高光速
缓存层次结构已经是固定的,你必须在这个前提下工作,网络开销会让分布式训练变慢,在向量中只能塞入那么多内容,等等。
3. 只要有足够的推力,猪就能飞得很高,然而,这并不一定是一个好主意
一个研究生或大型的超参数扫描器可以在一个巨大的数据中心中可以找到一组超参数,可以让非常复杂的模型工作得很好,甚至产生优秀的结果。但没有人在现实世界中调试那么大的模型。我在帮助公司管理他们的 ML 团队时发现了一个秘密 ― 大多数人不知道/不关心超参数调优。
4. 生活中的一些事情,除非亲身经历过,否则永远不会被完全欣赏或理解
对于既不构建生产 ML 模型也不维护它们的人来说,机器学习中的某些东西是永远无法完全理解的。再多的课件,再多的 mooc,再多的 Kaggling,都无法让你为此做好准备。没有什么可以替代部署模型、观察用户与模型的交互、处理代码/模型分解等等。
5. 总是有可能将多个独立的问题聚合成一个复杂的相互依赖的解决方案,在大多数情况下,这是一个坏主意
端到端学习在理论上听起来是一个好主意,但是对于大多数部署场景,分段优化的管道架构将继续存在。这并不意味着我们将完全没有端到端系统(语音识别和机器翻译有很好的端到端生产价值解决方案),但在大多数情况下,具有可观察的调试路径将胜过其他选择。
6. 把一个问题转移到别处,甚至是忽略它,都比解决它要容易得多
例如,在语音方面,声学建模是困难的,但是你可以让网络在解决不同问题(例如语音识别)的方法中找出这些细节。在 NLP 中,很难进行正确的解析。但值得庆幸的是,对于 99%的现实任务,我们可以不进行解析。
推论:除非迫不得已,否则不要解决问题。
7. 你总是要在一些事情上做权衡
速度 vs 内存,电池寿命 vs 准确性,公平性 vs 准确性,易于实现 vs 可维护性,……
8. 一切都比你想象的复杂
与购物时的价格冲击类似,工作中也有“努力冲击”。大多数经验丰富的研究人员和工程师都经历过“努力冲击”,要么是因为他们低估了处理大型数据集的工程问题,要么是因为他们低估了正在与之搏斗的领域的复杂性,要么是因为他们低估了对手。大多数论文让读者读起来觉得事情很简单,而忽略了这背后是经过了几百万次失败才有的成功。因此,论文不是研究,而是做研究的结果。因为这个原因,你永远可能通过阅读论文来体验做研究的过程。
9. 你永远都会是准备不足
这可以和第 8 点结合起来,事实上任何远程调用的成功的模型如果没有适当的计划,都可能由于自身的成功而崩溃。
10. 一个尺码不可能适合所有人,你的模型会一直犯令人尴尬的错误,尽管你的出发点是好的
角落案例和长尾失败模式将困扰你。值得庆幸的是,对于许多非关键的 ML 部署来说,这并不是什么大问题。最坏的情况下,它会成为一条搞笑的推文。但是,如果你在医疗保健或其他高风险情况下工作,ML 部署将因此成为一场噩梦。
11. 每一个旧的想法都会以不同的名字和不同的形式被再次提出,不管它是否有效
Schimdhuber 可能提出了一个更大的观点。没有人听他的,像他一样,我们把旧酒重新装进新瓶子,被迫重复错误的历史。
12. 达到完美不是因为没有什么可以补充的,而是因为没有什么可以去掉的摘要
生活中的每件事都是如此,现实世界中的机器学习也是如此。唉,我们的会议回顾了他们对“新颖性”的嗜好,产生了不想要的 arxi -spam,其中包含了大量本来就不需要存在的垃圾。除非做“科学”能够鼓励宣传什么是有效的,而不是什么是新的,否则我不认为这种情况会改变。
―END―
英文原文:http://deliprao.com/archives/227
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目31讲
在「小白学视觉」公众号后台回复:Python视觉实战项目31讲,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三?+?上海交大?+?视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~
2012年imagenet挑战赛 imagenet挑战赛2017
2012年imagenet竞赛,2012年imagenet冠军算法原理点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
文章导读
从1958年弗兰克.罗森布拉特发明的感知机、RNN、LeNet-5到Transformers等等,前人们一步一步的带动着深度学习往前跑。本文主要偏向于计算机视觉方向,带大家回想智慧凝结的每一个里程碑。