AI 初学者必须要了解的术语盘点

2019-09-24 |

110 |

原标题：AI 初学者必须要了解的术语盘点

来源：AI研习社原文链接：https://www.yanxishe.com/TextTranslation/998

发起：酱番梨校对：酱番梨审核：酱番梨参与翻译（2人）：nick李、Reidw

英文原文：The Artificial Intelligence dictionary for beginners

人工智能(AI)

从这个开始可能显得有点复杂，因为关于人工智能没有一个一致的定义。我们咨询了我们的R&D团队，他们也激烈地辩论了很久。这是他们讨论出的结果：

现如今，我们可以将AI定义为能够完成人类经常解决的任务的智能程序。

在未来，AI可能是由程序自动生成的人类智能。

一个大家都同意的定义：AI是一个包括机器学习*，深度学习*，自然语言处理*，视觉识别*等的研究领域。

算法(Algorithm)

算法是指一串能够完成某个既定目标的简单指令序列。让我们看一个比较接地气的例子：每天早上穿衣服（因为每个人都会穿衣服啊）。穿衣服时你会遵循一个严格的流程：首先穿内衣，然后穿衣服，最后才穿鞋。这就是算法所做的工作：遵循指令来回答一个问题。

属性(Attribute)

某个对象(object)的特征：它可以是从颜色到纹理、形状的任何东西。例如，下图中Jeanne Damas穿了什么？你可以在图旁边找到她的穿着的所有属性。

根据Heuritech的模型，Jeanne Damas穿着一条有异国鲜花图案的半开叉裙。

分类(Classification)

分类是指将零散的数据组织成类。在Heuritech的案例中，这些零散的数据就是图片，而类别就是不同的服饰(例如背包，鞋子，裙子和裤子)。数据科学家需要有标记的数据以训练分类模型。

聚类（Clustering）

聚类模型自主地将有相似特征的图片归为一组。有趣的是，这些模型不需要训练就可以对图片进行聚类。

一个聚类的实例

计算机视觉

计算机视觉是一个人工智能的分支，它着重于图片与视频，又称为视觉识别*

识别(Detection)

识别模型能够对图像中的一个或多个物体进行定位并分类。为了可视化表示识别模型的输出，长方形（也称包围盒）被画在识别出的物体周围。

数据集(Data set)

是指一个整理在一起的数据列表，可以被用来训练模型或评估一个模型的效果。在我们的案例中，数据集由图像组成，其中大部分都是和时尚有关。更多的解释，详见标记数据(labelled data)*。

深度学习(Deep Learning; 机器学习的一个分支)

深度学习是机器学习*的一个子领域，它的出现使得近十年的人工智能*发生了剧变。

视觉识别*尤其收益于深度学习。深度学习让识别、检测并且分割图像中的物体成为可能，并且具有较好的表现。一个深度学习模型学习去识别对人类有意义的概念，例如风景、手包、笑脸等。

为了完成这些任务，深度学习模型找到最重要的基础轮廓和形状，并且将它们结合在一起组成复杂的模式，而这些模式又将组合起来形成更复杂的模式，以此类推。在这个多层的过程最后，模型能够对它训练过的类别进行预测。

来源：Analytics Vidhya

泛化(Generalization)

指的是一个机器学习算法能在它从未见过的图像也表现良好的能力。如果模型在一个具有1000个图像的数据集上训练，它能否在每个其他图像上都具有较好的表现呢？

启发式(Heuristic)

指的是进行发现的科学艺术。它来自于希腊词"eurisko"（我相信)，并引申到"Eureka"（我找到）。这个词汇由阿基米德在洗澡时发现Pi的概念而推广。启发式方法包括排除其他方法来获得一个可用的解决方式以此来推动进展。

Heuritech

有两个名字组成：启发式和科技。有25位团队大脑组成，Heuritech作为一个初创公司的使命是建立消费行业最好的视觉识别系统。通过独特地应用顶尖水平的技术于数百万计的Instagram图片，我们能够对商品和趋势进行监控。这要感谢由35%的人工智能PhD组成的Heuritech团队持续5年的研究与开发。

标签数据(Labelled data)

机器学习*模型*的目标是根据一个输入预测正确的输出。例如，我们在Heuritech所使用的某些模型能够根据一个图像（输入）来预测具体的手包类别（输出）。这些模型在有标签的数据上训练，比如，一些有标签的图片。

训练一个模型是耗费巨大的，一部分是因为它需要数以千计的标签数据，而这些数据通常需要人工来逐一标记。在Heritech的例子中，标签数据主要是一些标记好时尚方面属性的图像。

机器学习（人工智能技术的一个分支）

首先，人工智能技术研究的是如何通过程序来自动完成那些通常需要人工处理的任务。实现它的一种方式就是使用机器学习模型，这些模型可以在打好标签的数据中自主学习特征。举个栗子，如果你想使用机器学习模型来自动识别照片中的裙子的种类，就需要将成百上千的带有种类标签的裙子照片输入模型进行训练，直到模型能够正确识别照片中那些训练集中不包含的裙子种类为止（详见泛化能力一章）。

模型

一个数学模型就是通过方程来理解世界的一种方式。但是，组成现实世界的数据种类是非常有限的，我们可以使用模型来读取这些数据（比如图像、声音、文本、股价......）。

给定一个输入，训练模型来得到一个合适的输出。在下面的例子中，输入就是这张图像，输出的就是局部物品的种类。例如手提袋。

在机器学习领域，所有的模型都是针对某一具体领域中的数据进行训练的。

Heuritech公司的模型：

输入：来自Instagram的一张照片

输出：图中的手提包

神经网络

想象一下，大脑中有一个庞大的神经网络，它由数以百万计的神经元组成，它们通过层级运算实现决策。这就像我们实际思考时，我们的大脑的工作方式一样。

自然语言处理（NLP）

人工智能领域的一个分支主要把文本作为研究对象。技术的名字就做出了明确的解释：让机器处理自然（人类）语言。例如，这就是为何垃圾邮件会出现在邮箱的垃圾箱中：因为你的电子邮件使用了训练过的自然语言处理系统来识别和筛选垃圾邮件。