7个有助于ai技术的最佳开源工具使用ai的实战方法论做好这5个步骤

计算机视觉相关最新论文近五年计算机视觉方面的文章

计算机视觉相关技术,计算机视觉相关书籍,计算机视觉相关论文,计算机视觉相关课程

2021 年排名前 10 的计算机视觉论文，包括视频演示、文章、代码和论文参考。

世界的经济活动在病毒的冲击下陷入了历史罕见的停滞中，但研究并没有放慢其狂热的步伐，尤其是在人工智能领域。今年的论文中除了一般的研究结果外还强调了许多重要方面，例如道德方面、重要偏见、治理、透明度等等。人工智能和我们对人脑及其与人工智能的联系的理解不断发展，显示出在不久的将来改善我们生活质量的有前景的应用。不过，我们应该谨慎选择应用哪种技术。

“科学不能告诉我们应该做什么，只能告诉我们可以做什么。”―― Jean-Paul Sartre, Being and Nothingness

以下是我总结的今年计算机视觉领域最有趣的 10 篇研究论文，简而言之，它基本上是一个精选的 AI 和 CV 最新突破列表，本篇文章将带有清晰的视频解释和代码（如果有）。本文末尾列出了对每篇论文的完整参考。如果还有什么推荐，请直接联系我。

OpenAI 成功训练了一个能够从文本标题生成图像的网络。它与 GPT-3 和 Image GPT 非常相似，并产生了惊人的结果。

代码：https://github.com/openai/DALL-E

将 GAN 和卷积方法的效率与Transformers 的表达能力相结合，为语义引导的高质量图像合成提供了一种强大且省时的方法。

代码：https://github.com/CompVis/taming-transformers

Transformers 会取代计算机视觉中的 CNNs 吗？在不到 5 分钟的时间内，通过一篇名为 Swin Transformer 的新论文了解如何将 Transformer 架构应用于计算机视觉。

代码：https://github.com/microsoft/Swin-Transformer

视图合成的下一步：目标是拍摄一张图像，然后就可以进到图像中去探索风景!

DEMO：https://colab.research.google.com/github/google-research/google-research/blob/master/infinite_nature/infinite_nature_demo.ipynb#scrollTo=sCuRX1liUEVM

根据添加的新背景的亮度重新为肖像补光。你有没有想过改变图片的背景，但让它看起来很逼真？如果已经尝试过就会知道这并不简单。你在家里拍一张自己的照片然后改变成海滩的背景，任何人都会在一秒钟内说“那是经过Photoshop处理的”。对于电影和专业视频，需要完美的灯光和艺术家来再现高质量的图像，这非常昂贵。你无法用自己的照片做到这一点。但是这篇论文做到了

该模型只通过拍摄一张照片，就能够了解哪些粒子应该在移动，并可以在限循环中为它们设置逼真的动画，同时完全保留图片的其余部分，这样我们可以将图片转换成动画……

代码：https://eulerian.cs.washington.edu/

使用修改后的 GAN 架构，他们可以在不影响背景或其他对象的情况下移动图像中的对象！

代码：https://github.com/autonomousvision/giraffe

TimeLens 可以理解视频帧之间粒子的运动，用我们肉眼看不到的速度重建真正发生的事情。它达到了智能手机和其他机型无法达到的效果！

代码：https://github.com/uzh-rpg/rpg_timelens

你有没有想过把照片的风格，比如左边这个很酷的绘画风格，应用到你选择的新照片上？这个模型能够做到，甚至可以仅从文本中实现这一点，并且还提供了可以立即尝试使用这种新方法及其适用于所有人的 Google Colab 。简单的拍一张你要复制的样式的图片，输入你要生成的文字，这个算法就会生成一张新的图片！结果非常令人印象深刻，特别它们可以由一行文本制成的！

DEMO：https://colab.research.google.com/github/kvfrans/clipdraw/blob/main/clipdraw.ipynbhttps://colab.research.google.com/github/pschaldenbrand/StyleCLIPDraw/blob/master/Style_ClipDraw.ipynb

该模型称为 CityNeRF，是从 NeRF 发展而来的， NeRF 是最早使用辐射场和机器学习从图像构建 3D 模型的模型之一。但 NeRF 效率不高而且只适用于单一规模。在这里，CityNeRF 同时应用于卫星和地面图像，生成各种 3D 模型。简而言之他们将 NeRF 带入了城市规模。

代码：https://city-super.github.io/citynerf/

[1] A. Ramesh et al., Zero-shot text-to-image generation, 2021. arXiv:2102.12092

[2] Taming Transformers for High-Resolution Image Synthesis, Esser et al., 2020.

[3] Liu, Z. et al., 2021, “Swin Transformer: Hierarchical Vision Transformer using Shifted Windows”, arXiv preprint https://arxiv.org/abs/2103.14030v1

[bonus] Yuille, A.L., and Liu, C., 2021. Deep nets: What have they ever done ?for vision?. International Journal of Computer Vision, 129(3), ?pp.781C802, https://arxiv.org/abs/1805.04025.

[4] Liu, A., Tucker, R., Jampani, V., Makadia, A., Snavely, N. and ?Kanazawa, A., 2020. Infinite Nature: Perpetual View Generation of ?Natural Scenes from a Single Image, https://arxiv.org/pdf/2012.09855.pdf

[5] Pandey et al., 2021, Total Relighting: Learning to Relight Portraits ?for Background Replacement, doi: 10.1145/3450626.3459872, https://augmentedperception.github.io/total_relighting/total_relighting_paper.pdf.

[6] Holynski, Aleksander, et al. “Animating Pictures with Eulerian Motion ?Fields.” Proceedings of the IEEE/CVF Conference on Computer Vision and ?Pattern Recognition. 2021.

[7] Michael Niemeyer and Andreas Geiger, (2021), “GIRAFFE: Representing ?Scenes as Compositional Generative Neural Feature Fields”, Published in ?CVPR 2021.

[8] Stepan Tulyakov, Daniel Gehrig, Stamatios Georgoulis, Julius Erbach, ?Mathias Gehrig, Yuanyou Li, Davide Scaramuzza, TimeLens: Event-based ?Video Frame Interpolation, IEEE Conference on Computer Vision and ?Pattern Recognition (CVPR), Nashville, 2021, http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf

[9] a) CLIPDraw: exploring text-to-drawing synthesis through language-image encodersb) StyleCLIPDraw: Schaldenbrand, P., Liu, Z. and Oh, J., 2021. ?StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Synthesis.

[10] Xiangli, Y., Xu, L., Pan, X., Zhao, N., Rao, A., Theobalt, C., Dai, B. ?and Lin, D., 2021. CityNeRF: Building NeRF at City Scale.

本文作者：Louis Bouchard

pytorch和tensorflow干什么的 keras pytorch tensorflow区别

pytorch和tensorflow哪个简单,pytorch和tensorflow可以一起装吗,pytorch和tenserflow,pytorch有啥用

快到 2022 了，你是选 PyTorch 还是 TensorFlow？

之前有一种说法：TensorFlow 适合业界，PyTorch 适合学界。这种说法到 2022 年还成立吗？在这篇文章中，作者从模型可用性、部署便捷度和生态系统三个方面对比了两个框架的优缺点，并针对不同身份的读者给出了不同的选择建议。

模型可用性对比：PyTorch 胜出

在模型可用性方面，PyTorch 和 TensorFlow 表现出了明显的区别。它们都有自己的官方模型库，但是对于从业者来说，这些库里的模型可能还不够。因此，我们有必要比较一下这两个框架官方模型库之外的模型来源是否丰富。HuggingFace

HuggingFace 的存在使得深度学习从业者仅借助几行代码就能将训练、微调好的 SOTA 模型整合到其 pipeline 中。下图显示了两个框架的 HuggingFace 模型可用情况。从图中看出，HuggingFace 中大约有 85% 的模型只能在 PyTorch 上用，剩下的模型还有一半也可以在 PyTorch 上用。相比之下，只有 16% 的模型能在 TensorFlow 上用，只有 8% 是 TensorFlow 所独有的。

如果把范围缩小到 HuggingFace 上最受欢迎的 30 个模型，我们可以看到类似的结果。在这 30 个模型中，能在 TensorFlow 上用的还不到 2/3，但能在 PyTorch 上用的却达到了 100%，没有哪个模型只能在 TensorFlow 上用。

研究论文对于研究者来说，从最近发表的论文中获取模型是非常重要的，它可以让你专注于其他重要的工作。尝试在不同的框架中重新创建新的模型会浪费宝贵的时间。考虑到 PyTorch 实际上是一个研究型框架，作者预期在 HuggingFace 上观察到的趋势会蔓延至整个社区，结果不出所料。如下图所示，作者汇总了 8 个顶级研究期刊上的论文在过去几年里的框架采用情况。结果显示，PyTorch 的采用率增长迅速，几年时间就从原来的 7% 长到了近 80%。

PyTorch 的这种增长势头很大程度上是拜 TensorFlow 所赐。很多转向 PyTorch 的研究者都表示 TensorFlow 1 太难用了。尽管 2019 年发布的 TensorFlow 2 改掉了一些问题，但彼时，PyTorch 的增长势头已经难以遏制。如果看一下那些中途换框架的研究者的比例，我们也可以得出类似的结论。如下图所示，在 2018 年还在用 TensorFlow 的论文作者中，有 55% 的人在 2019 年转向了 PyTorch，但 2018 年就在用 PyTorch 的人有 85% 都留了下来。

Papers with Code最后我们来看一下 Papers with Code 网站。在这一部分，作者绘制了使用 PyTorch、TensorFlow 或其他框架的论文随时间变化的比例。从中可以看出，使用 PyTorch 的论文在稳步增长：在本季度创建的 4500 个库中，有 60% 是在 PyTorch 中实现的，只有 11% 是在 TensorFlow 中实现的。相比之下，TensorFlow 的使用率在稳步下降，2019 年 TensorFlow 2 的发布也没有扭转这一趋势。

小结从以上数据可以明显看出，PyTorch 目前在研究领域占据主导地位。虽然 TensorFlow 2 解决了研究者使用该框架进行研究的一些痛点，但 PyTorch 却没有给研究者回头的理由。此外，TensorFlow 两大版本之间的向后兼容性问题只会让这种趋势愈演愈烈。

当然，这里还有几个例外需要注意：

Google AI：谷歌发布的论文自然会用 TensorFlow。鉴于在论文方面谷歌比 Facebook 更高产，一些研究者可能会发现掌握 TensorFlow 还是很有用的。 DeepMind：DeepMind 也用 TensorFlow，而且也比 Facebook 高产。他们创建了一个名叫 Sonnet 的 TensorFlow 高级 API，用于研究目的。有人管这个 API 叫「科研版 Keras」，那些考虑用 TensorFlow 做研究的人可能会用到它。此外，DeepMind 的 Acme 框架可能对于强化学习研究者很有用。

OpenAI：OpenAI 在 2020 年宣布了全面拥抱 PyTorch 的决定。但他们之前的强化学习基线库都是在 TensorFlow 上部署的。基线提供了高质量强化学习算法的实现，因此 TensorFlow 可能还是强化学习从业者的最佳选择。 JAX：谷歌还有另一个框架――JAX，它在研究社区中越来越受欢迎。与 PyTorch 和 TensorFlow 相比，JAX 的开销要小得多。但同时，JAX 和前两个框架差别也很大，因此迁移到 JAX 对于大多数人来说可能并不是一个好选择。目前，有越来越多的模型 / 论文已经在用 JAX，但未来几年的趋势依然不甚明朗。所以总体来看，在第一轮（模型可用性）的对比中，PyTorch 完胜。

部署便捷性对比：TensorFlow 胜出从一开始，TensorFlow 就是一个面向部署的首选框架，因为它有一系列可以提高端到端深度学习效率的工具，比如 TensorFlow Serving 和 TensorFlow Lite。相比之下，PyTorch 在部署方面一度表现平平，但近年来，它也在努力缩小这一差距。去年推出的 TorchServe 和前几周推出的 PyTorch Live 为用户提供了急需的本地部署工具。但二者之间的差距还有多大？我们来看进一步的分析。小结目前，TensorFlow 依然在部署方面占有优势。Serving 和 TFLite 比 PyTorch 的同类型工具要稳健一些。

而且，将 TFLite 与谷歌的 Coral 设备一起用于本地 AI 的能力是许多行业的必备条件。相比之下，PyTorch Live 只专注于移动平台，而 TorchServe 仍处于起步阶段。因此综合来看，第二轮（部署便捷性）的胜出者是 TensorFlow。如果你既想用 TensorFlow 的部署基础设施，又想访问只能在 PyTorch 中使用的模型，作者推荐使用 ONNX 将模型从 PyTorch 移植到 TensorFlow。

生态系统对比：TensorFlow 胜出2022 年，将 PyTorch 和 TensorFlow 分开考虑，一个重要的因素是它们所处的生态系统不同。PyTorch 和 TensorFlow 都提供了易于部署、管理、分布式训练的工具，从建模的角度讲都是能力很强的框架。相比之下，它们在生态系统方面的差异更重要。

PyTorch Hub： PyTorch Hub 作为面向研究的官方平台，用于与预训练模型共享存储库。Hub 拥有广泛类别的模型，包括用于音频、视觉、NLP 任务的模型，还有用于生成任务的 GAN 模型。

SpeechBrain：SpeechBrain 是 PyTorch 的官方开源语音工具包。SpeechBrain 能够完成自动语音识别（ASR）、说话人识别、验证和分类等任务。如果你不想构建任何模型，而是想要一个具有情感分析、实体检测等功能的即插即用工具，你可以选择使用 AssemblyAI 的 Speech-to-Text API。当然，PyTorch 的工具页面还有很多其他有用的库，包括为计算机视觉和自然语言处理量身定制的库，例如 fast.ai。

TorchElastic： TorchElastic 是 AWS 和 Facebook 2020 年联合发布的分布式训练工具，可管理工作进程并协调重启行为，以便用户在计算节点集群上训练模型，这些节点可以动态变化而不会影响训练。因此，TorchElastic 可防止因服务器维护或网络问题等导致的灾难性故障，不会丢失训练进度。TorchElastic 具有与 Kubernetes 集成的特性，并已集成到 PyTorch 1.9+ 中。

TorchX：TorchX 是一个用于快速构建和部署机器学习应用程序的 SDK。TorchX 包括 Training Session Manager API，可在支持的调度程序上启动分布式 PyTorch 应用程序。TorchX 负责启动分布式作业，同时原生支持由 TorchElastic 局部管理的作业。

Lightning：PyTorch Lightning 有时被称为 PyTorch 的 Keras。虽然这种类比并不准确，但 Lightning 的确是简化 PyTorch 中模型工程和训练过程的有用工具，自 2019 年首次发布以来已经逐渐趋于成熟。Lightning 以面向对象的方式处理建模过程，定义了可重用和可跨项目使用的可共享组件。TensorFlowHub： TensorFlow Hub 是一个经过训练的机器学习模型库，可以进行微调，让用户只需几行代码就能使用像 BERT 这样的模型。Hub 包含适用于不同用例的 TensorFlow、TensorFlow Lite 和 TensorFlow.js 模型，可用于图像、视频、音频和文本处理。

Model Garden：如果现成的预训练模型不适用于用户的应用，那么 TensorFlow 的存储库 Model Garden 可以提供 SOTA 模型的源代码。对于想要深入了解模型工作原理，或根据自己的需要修改模型的用户，Model Garden 将非常有用。 Model Garden 包含谷歌维护的官方模型、研究人员维护的研究模型和社区维护的精选社区模型。TensorFlow 的长期目标是在 Hub 上提供来自 Model Garden 的模型的预训练版本，并使 Hub 上的预训练模型在 Model Garden 中具有可用的源代码。

Extended（TFX）：TensorFlow Extended 是 TensorFlow 用于模型部署的端到端平台。该平台的功能强大，包括：加载、验证、分析和转换数据；训练和评估模型；使用 Serving 或 Lite 部署模型；跟踪 artifact 及其依赖项。TFX 还可以与 Jupyter 或 Colab 一起使用，并且可以使用 Apache Airflow/Beam 或 Kubernetes 进行编排。TFX 与 Google Cloud 紧密集成，可与 Vertex AI Pipelines 一起使用。

Vertex AI：Vertex AI 是 Google Cloud 今年刚刚发布的统一机器学习平台，旨在统一 GCP、AI Platform 和 AutoML，成为一个平台。Vertex AI 能够以无服务器方式编排工作流，帮助用户自动化、监控和管理机器学习系统。Vertex AI 还可以存储工作流的 artifact，让用户可以跟踪依赖项和模型的训练数据、超参数和源代码。 Coral：尽管有各种各样的 SaaS 公司依赖基于云的人工智能，但许多行业对本地人工智能的需求也在不断增长，Google Coral 就是为了满足这一需求而创建的。Coral 是一个完整的工具包，可以使用本地 AI 构建产品。

Coral 于 2020 年发布，解决了部署部分 TFLite 中提到的实现板载 AI 的问题，克服了隐私和效率等方面的困难。 Coral 提供了一系列用于原型设计、生产和传感的硬件产品，其中一些本质上是增强型的树莓派，专为 AI 应用程序创建，能够利用 Edge TPU 在低功耗设备上进行高性能推理。Coral 还提供用于图像分割、姿态估计、语音识别等任务的预编译模型，为希望创建本地 AI 系统的开发人员提供支持。创建模型的基本步骤如下面的流程图所示。

TensorFlow.js 是一个用于机器学习的 JavaScript 库，允许用户使用 Node.js 在浏览器和服务器端训练和部署模型。Cloud：TensorFlow Cloud 是一个可以将本地环境连接到 Google Cloud 的库，它的 API 旨在弥补本地机器上模型构建和调试与 GCP 上分布式训练和超参数调整之间的差距，而无需使用 Cloud Console。

Colab：Google Colab 是一个基于云的 notebook 环境，与 Jupyter 非常相似。Colab 易于连接到 Google Cloud 进行 GPU 或 TPU 训练，并且 Colab 还可以和 PyTorch 一起使用。

Playground：Playground 是一个小而精致的可视化工具，用于帮助用户理解神经网络的基础知识。要户可以更改 Playground 内置神经网络的层数和大小，以实时查看神经网络是如何学习特征的，用户还可以看到改变学习率和正则化强度等超参数如何影响不同数据集的学习过程。Playground 允许实时播放学习过程，以高度直观的方式查看输入在训练过程中是如何转换的。Playground 还提供了一个开源的小型神经网络库，是它自身的构建基础，用户能够查看其源代码的具体细节。

Datasets：谷歌研究院的 Datasets 是谷歌定期发布的数据集的整合资源。谷歌还提供了数据集搜索以访问更广泛的数据集资源。当然，PyTorch 用户也可以利用这些数据集。

小结总的来说，尽管 PyTorch 和 TensorFlow 有很多相似和共享的资源，但在生态系统方面，终究是 TensorFlow 更胜一筹。谷歌投入巨资确保深度学习的每个相关领域都有完善的产品。与 Google Cloud 和 TFX 的紧密集成使端到端的开发过程变得轻而易举，而将模型移植到 Google Coral 设备的便利性让 TensorFlow 在某些行业取得了压倒性的胜利。

我应该选 PyTorch 还是 TensorFlow？正如期望的那样，PyTorch 与 TensorFlow 还没有决出明确的胜负。只能说，某一个框架在特定用例方面是优于另一个框架的。为了帮助读者做出选择，作者汇总了一些建议。在下面的流程图中，每个图表都针对不同的兴趣领域量身定制。

如果我在业界怎么办？

如果在工业界执行深度学习工程任务，你很可能会使用 TensorFlow，并且应该坚持使用它。对于需要将模型投入生产的人来说，TensorFlow 强大的部署框架和端到端的 TensorFlow Extended 平台是很珍贵的。能在 gRPC 服务器上进行轻松部署以及模型监控和工件跟踪是行业应用的关键。

鉴于 PyTorch 最近发布了 TorchServe，如果你需要访问仅在 PyTorch 中可用的 SOTA 模型，那也可以考虑使用 PyTorch。在这种情况下，请考虑使用 ONNX 在 TensorFlow 的部署工作流中部署转换后的 PyTorch 模型。如果你正在构建移动应用，鉴于 PyTorch 最近发布了 PyTorch Live，可以考虑使用 PyTorch。如果你需要音频或视频输入，在这种情况下还是应该使用 TensorFlow。如果你正在构建使用 AI 的嵌入式系统或 IoT 设备，鉴于 TFLite + Coral 生态系统，你仍然应该使用 TensorFlow。

总之，在工业界，如果必须选择一种框架，请选择 TensorFlow。

如果我是研究者怎么办？

如果是一名研究人员，你大概率会使用 PyTorch，你应该坚持使用它，大多数 SOTA 模型都适用于 PyTorch。当然，这条规则有几个值得注意的例外，最值得注意的是：强化学习领域的一些研究应该考虑使用 TensorFlow。TensorFlow 有一个用于强化学习的原生 Agents 库，并且 DeepMind 的 Acme 框架是在 TensorFlow 中实现的。OpenAI 的 baseline 模型存储库也是在 TensorFlow 中实现的，尽管 OpenAI 的 Gym 在 TensorFlow 或 PyTorch 中都能使用。如果你打算使用 TensorFlow 进行研究，还应该查看 DeepMind 的 Sonnet 以获得更高级别的抽象。

如果不想使用 TensorFlow，比如你正在做 TPU 训练，那

本文地址： https://www.xxs100.com//show-394532.html

版权声明：除非特别标注原创，其它均来自互联网，转载时请以链接形式注明文章出处。

OpenAIOpenAI

分享到：

7个有助于ai技术的最佳开源工具 使用ai的实战方法论做好这5个步骤

计算机视觉相关最新论文 近五年计算机视觉方面的文章

pytorch和tensorflow干什么的 keras pytorch tensorflow区别

7个有助于ai技术的最佳开源工具使用ai的实战方法论做好这5个步骤

计算机视觉相关最新论文近五年计算机视觉方面的文章