人工智能 (AI)

231次阅读

文章目录

人工智能 (AI)

一、人工智能简介

1.1. 人工智能定义和发展历史

1.2. 人工智能发展必备三要素

1.2.1. 三要素

1.2. 人工智能发展必备三要素

二、实现人工智能实现的核心技术

2.1、数据科学

2.1.1 数据科学定义

2.1.2 数据科学应用流程

2.1.3 数据科学于机器学习对比

2.2、计算机视觉

2.3、自然语言处理

2.4、机器学习

2.4.1. 什么是机器学习

2.4.2. 机器学习工作流程

2.4.3. 机器学习算法分类

2.4.4 机器学习常用算法

2.4.5. 机器学习模型评估

2.4.6. 深度学习简介

2.4.7. 深度学习各层负责内容

2.4.8. 深度学习典型模型

2.4.9. 深度学习训练过程

2.5、机器人

2.6、语音识别

三、人工智能技术领域和应用案例

3.1. 人工智能应用案例

四、如何选择人工智能项目

五、人工智能的发展和未来

相关参考资料

人工智能 (AI)

一、人工智能简介

1.1. 人工智能定义和发展历史

人工智能（Artificial Intelligence），英文缩写为 AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

ANI : 弱人工智能

AGI: 强人工智能

1.2. 人工智能发展必备三要素

1.2.1. 三要素

1）数据

2）算法

3）计算力：CPU,GPU,TPU

CPU: 主要适合 IO 密集型任务

GPU：主要适合计算密集型任务

计算密集的程序：所谓计算密集型的程序，就是其大部分运行时间花在寄存器运算上，寄存器的速度和处理器的速度相当，从寄存器读写数据几乎没有延迟，可做一下对比，读取内存的延迟大概几百个时钟周期，读硬盘的速度就不说了，即使是 ssd, 也是很慢的

1.2. 人工智能发展必备三要素

二、实现人工智能实现的核心技术

概括来说，人工智能、机器学习和深度学习覆盖的技术范畴是逐层递减的。人工智能是最宽泛的概念。机器学习是当前比较有效的一种实现人工智能的方式。深度学习是机器学习算法中最热门的一个分支，近些年取得了显著的进展，并替代了大多数传统机器学习算法。三者的关系如图 1 所示，即：人工智能 > 机器学习 > 深度学习。

图 1：人工智能、机器学习和深度学习三者关系示意

如字面含义，人工智能是研发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。由于这个定义只阐述了目标，而没有限定方法，因此实现人工智能存在的诸多方法和分

2.1、数据科学

2.1.1 数据科学定义

当今时代是数据为王的大数据时代，并由此催生了数据科学这门新兴的学科。数据科学是一门多学科交叉的综合学科，包含数据获取、数据分析、数据管理、机器学习、统计优化和数据可视化等内容，逐渐成为探明大数据集本源，并把大数据转换成可执行智能的有效方法。

数据挖掘不是新产生的东西，它在很多年前就被提出了。随着近几年人工智能领域受到关注，数据挖掘也开始被人提起。数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

2.1.2 数据科学应用流程

1. 收集数据

2. 分析数据

3. 提出假设和行动

4. 定期继续获取数据不断迭代

2.1.3 数据科学于机器学习对比

2.2、计算机视觉

（1）定义：

计算机视觉是使用计算机及相关设备对生物视觉的一种模拟。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，就像人类和许多其他类生物每天所做的那样。

计算机视觉是一门关于如何运用照相机和计算机来获取我们所需的，被拍摄对象的数据与信息的学问。形象地说，就是给计算机安装上眼睛（照相机）和大脑（算法），让计算机能够感知环境。我们中国人的成语 " 眼见为实 " 和西方人常说的 "One picture is worth ten thousand words" 表达了视觉对人类的重要性。不难想象，具有视觉的机器的应用前景能有多么地宽广。

（2）应用：

计算机视觉有着广泛的应用，其中包括：医疗成像分析被用来提高疾病预测、诊断和治疗；人脸识别被 Facebook 用来自动识别照片里的人物；在安防及监控领域被用来指认嫌疑人；在购物方面，消费者现在可以用智能手机拍摄下产品以获得更多购买选择。

2.3、自然语言处理

3、自然语言处理：

（1）定义：自然语言处理（NLP）是计算机科学，人工智能，语言学关注计算机和人类（自然）语言之间的相互作用的领域。因此，自然语言处理是与人机交互的领域有关的。在自然语言处理面临很多挑战，包括自然语言理解，因此，自然语言处理涉及人机交互的面积。在 NLP 诸多挑战涉及自然语言理解，即计算机源于人为或自然语言输入的意思，和其他涉及到自然语言生成。

文本分类：文本分类是指给定一个文本，预测其所属的预定类别。像是垃圾邮件的过滤，它可以依照文本分类电子邮件的垃圾邮件。还可以对源文本的语言进行分类，以及题材分类，分类虚构故事的体裁等等。

语言建模：生成新的文章标题；生成新的句子，段落或文档；生成后续句子建议。

语音识别：生成演讲文本；为电影或电视节目创建字幕；开车时向收音机发出命令。

说明生成：描述场景的内容；创建照片的标题；描述视频。

信息抽取

信息抽取是将嵌入在文本中的非结构化信息提取并转换为结构化数据的过程，从自然语言构成的语料中提取出命名实体之间的关系，是一种基于命名实体识别更深层次的研究。信息抽取的主要过程有三步：首先对非结构化的数据进行自动化处理，其次是针对性的抽取文本信息，最后对抽取的信息进行结构化表示。信息抽取最基本的工作是命名实体识别，而核心在于对实体关系的抽取。

自动文摘

自动文摘是利用计算机按照某一规则自动地对文本信息进行提取、集合成简短摘要的一种信息压缩技术，旨在实现两个目标：首先使语言的简短，其次要保留重要信息。

语音识别技术

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术，也就是让机器听懂人类的语音，其目标是将人类语音中的词汇内容转化为计算机可读的数据。要做到这些，首先必须将连续的讲话分解为词、音素等单位，还需要建立一套理解语义的规则。语音识别技术从流程上讲有前端降噪、语音切割分帧、特征提取、状态匹配几个部分。而其框架可分成声学模型、语言模型和解码三个部分。

机器翻译：机器翻译是指将一种语言的源文本转换为另一种语言。机器翻译的语言模型用于依据源文本，输出第二语言的目标文本。

2.4、机器学习

2.4.1. 什么是机器学习

机器学习是一门多学科交叉专业，涵盖概率论知识，统计学知识，近似理论知识和复杂算法知识，使用计算机作为工具并致力于真实实时的模拟人类学习方式，并将现有内容进行知识结构划分来有效提高学习效率。

机器学习有下面几种定义：

（1）机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。

（2）机器学习是对能通过经验自动改进的计算机算法的研究。

（3）机器学习是用数据或以往的经验，以此优化计算机程序的性能标准

2.4.2. 机器学习工作流程

1. 获取数据

2. 数据基本处理

3. 特征工程

4. 机器学习（选择算法模型训练）

5. 模型评估

结果达到要求, 上线

结果没有达到要求，继续上面步骤

2.4.3. 机器学习算法分类

1. 监督学习

输入数据是由输入特征值和目标值组成

函数的输出可以是一个连续的值（称为回归）

或是输出是有限个离散值（称为分类）

2. 无监督学习

输入数据是由输入特征值组成，没有目标值

输入数据没有被标记，也没有确定的结果，样本数据类别未知

需要数据样板间的相似性对样本集体进行类别划分

3. 半监督学习

训练集同时包含有标记样本数据和未标记样本数据

4. 强化学习

实质是自动进行决策，并且可以连续决策

2.4.4 机器学习常用算法

线性回归

Logistic 回归

线性判别分析（LDA）

分类与回归树

决策树是预测建模机器学习的一种重要算法。

决策树模型的表示是一个二叉树。这是算法和数据结构中的二叉树，没什么特别的。每个节点代表一个单独的输入变量 x 和该变量上的一个分割点（假设变量是数字）。

决策树

决策树的叶节点包含一个用于预测的输出变量 y。通过遍历该树的分割点，直到到达一个叶节点并输出该节点的类别值就可以作出预测。

决策树学习速度和预测速度都很快。它们还可以解决大量问题，并且不需要对数据做特别准备。

5. 朴素贝叶斯

6. K 近邻算法

7. 学习向量量化

8. 支持向量机（SVM）

支持向量机可能是最受欢迎和最广泛讨论的机器学习算法之一。

超平面是分割输入变量空间的一条线。在 SVM 中，选择一条可以最好地根据输入变量类别（类别 0 或类别 1）对输入变量空间进行分割的超平面。在二维中，你可以将其视为一条线，我们假设所有的输入点都可以被这条线完全的分开。SVM 学习算法找到了可以让超平面对类别进行最佳分割的系数。

支持向量机

超平面和最近的数据点之间的距离被称为间隔。分开两个类别的最好的或最理想的超平面具备最大间隔。只有这些点与定义超平面和构建分类器有关。这些点被称为支持向量，它们支持或定义了超平面。实际上，优化算法用于寻找最大化间隔的系数的值。

SVM 可能是最强大的立即可用的分类器之一，值得一试。

Bagging 和随机森林

随机森林是最流行和最强大的机器学习算法之一。它是 Bootstrap Aggregation（又称 bagging）集成机器学习算法的一种。

bootstrap 是从数据样本中估算数量的一种强大的统计方法。例如平均数。你从数据中抽取大量样本，计算平均值，然后平均所有的平均值以便更好的估计真实的平均值。

bagging 使用相同的方法，但是它估计整个统计模型，最常见的是决策树。在训练数据中抽取多个样本，然后对每个数据样本建模。当你需要对新数据进行预测时，每个模型都进行预测，并将所有的预测值平均以便更好的估计真实的输出值。

随机森林

随机森林是对这种方法的一种调整，在随机森林的方法中决策树被创建以便于通过引入随机性来进行次优分割，而不是选择最佳分割点。

因此，针对每个数据样本创建的模型将会与其他方式得到的有所不同，不过虽然方法独特且不同，它们仍然是准确的。结合它们的预测可以更好的估计真实的输出值。

如果你用方差较高的算法（如决策树）得到了很好的结果，那么通常可以通过 bagging 该算法来获得更好的结果。

Boosting 和 AdaBoost

总结

即使是经验丰富的数据科学家在尝试不同的算法之前，也无法分辨哪种算法会表现最好。虽然还有很多其他的机器学习算法，但本篇文章中讨论的是最受欢迎的算法。如果你是机器学习的新手，这将是一个很好的学习起点。

2.4.5. 机器学习模型评估

1. 分类模型评估

2。回归模型评估

3. 拟合：模型评估用用评价模型训练好的模型的表现效果。其表现效果分为两类

2.4.6. 深度学习简介

深度学习的概念源于人工神经网络的研究，含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本等。

深度学习是一类模式分析方法的统称，就具体研究内容而言，主要涉及三类方法：

(1)基于卷积运算的神经网络系统，即卷积神经网络(CNN)。

(2)基于多层神经元的自编码神经网络，包括自编码 (Auto encoder) 以及近年来受到广泛关注的稀疏编码两类(Sparse Coding)。

(3)以多层自编码神经网络的方式进行预训练，进而结合鉴别信息进一步优化神经网络权值的深度置信网络(DBN)。

通过多层处理，逐渐将初始的“低层”特征表示转化为“高层”特征表示后，用“简单模型”即可完成复杂的分类等学习任务。由此可将深度学习理解为进行“特征学习”（feature learning）或“表示学习”（representation learning）。

神经网络

2.4.7. 深度学习各层负责内容

2.4.8. 深度学习典型模型

1）卷积神经网络模型

在无监督预训练出现之前，训练深度神经网络通常非常困难，而其中一个特例是卷积神经网络。卷积神经网

络受视觉系统的结构启发而产生。第一个卷积神经网络计算模型是在 Fukushima(D 的神经认知机中提出的，基于神经元之间的局部连接和分层组织图像转换，将有相同参数的神经元应用于前一层神经网络的不同位置，得到一种平移不变神经网络结构形式。后来，Le Cun 等人在该思想的基础上，用误差梯度设计并训练卷积神经网络，在一些模式识别任务上得到优越的性能。至今，基于卷积神经网络的模式识别系统是最好的实现系统之一，尤其在手写体字符识别任务上表现出非凡的性能。

2）深度信任网络模型

DBN 可以解释为贝叶斯概率生成模型，由多层随机隐变量组成，上面的两层具有无向对称连接，下面的层得到来自上一层的自顶向下的有向连接，最底层单元的状态为可见输入数据向量。DBN 由若 2F 结构单元堆栈组成，结构单元通常为 RBM（RestIlcted Boltzmann Machine，受限玻尔兹曼机）。堆栈中每个 RBM 单元的可视层神经元数量等于前一 RBM 单元的隐层神经元数量。根据深度学习机制，采用输入样例训练第一层 RBM 单元，并利用其输出训练第二层 RBM 模型，将 RBM 模型进行堆栈通过增加层来改善模型性能。在无监督预训练过程中，DBN 编码输入到顶层 RBM 后，解码顶层的状态到最底层的单元，实现输入的重构。RBM 作为 DBN 的结构单元，与每一层 DBN 共享参数。

3）堆栈自编码网络模型

堆栈自编码网络的结构与 DBN 类似，由若干结构单元堆栈组成，不同之处在于其结构单元为自编码模型 (auto-en-coder) 而不是 RBM。自编码模型是一个两层的神经网络，第一层称为编码层，第二层称为解码层。

2.4.9. 深度学习训练过程

2006 年，Hinton 提出了在非监督数据上建立多层神经网络的一个有效方法，具体分为两步：首先逐层构建单层神经元，这样每次都是训练一个单层网络；当所有层训练完后，使用 wake-sleep 算法进行调优。

将除最顶层的其他层间的权重变为双向的，这样最顶层仍然是一个单层神经网络，而其他层则变为了图模型。向上的权重用于“认知”，向下的权重用于“生成”。然后使用 wake-sleep 算法调整所有的权重。让认知和生成达成一致，也就是保证生成的最顶层表示能够尽可能正确的复原底层的节点。比如顶层的一个节点表示人脸，那么所有人脸的图像应该激活这个节点，并且这个结果向下生成的图像应该能够表现为一个大概的人脸图像。wake-sleep 算法分为醒 (wake) 和睡 (sleep) 两个部分。

wake 阶段：认知过程，通过外界的特征和向上的权重产生每一层的抽象表示，并且使用梯度下降修改层间的下行权重。

sleep 阶段：生成过程，通过顶层表示和向下权重，生成底层的状态，同时修改层间向上的权重。

自下上升的非监督学习

就是从底层开始，一层一层地往顶层训练。采用无标定数据（有标定数据也可）分层训练各层参数，这一步可以看作是一个无监督训练过程，这也是和传统神经网络区别最大的部分，可以看作是特征学习过程。具体的，先用无标定数据训练第一层，训练时先学习第一层的参数，这层可以看作是得到一个使得输出和输入差别最小的三层神经网络的隐层，由于模型容量的限制以及稀疏性约束，使得得到的模型能够学习到数据本身的结构，从而得到比输入更具有表示能力的特征；在学习得到 n - l 层后，将 n - l 层的输出作为第 n 层的输入，训练第 n 层，由此分别得到各层的参数。

自顶向下的监督学习

就是通过带标签的数据去训练，误差自顶向下传输，对网络进行微调。基于第一步得到的各层参数进一步优调整个多层模型的参数，这一步是一个有监督训练过程。第一步类似神经网络的随机初始化初值过程，由于第一步不是随机初始化，而是通过学习输入数据的结构得到的，因而这个初值更接近全局最优，从而能够取得更好的效果。所以深度学习的良好效果在很大程度上归功于第一步的特征学习的过程。

2.5、机器人

将机器视觉、自动规划等认知技术整合至极小却高性能的传感器、制动器以及设计巧妙的硬件中，这就形成了机器人，它有能力跟人类一起工作。

例如无人机，以及在车间为人类分担工作的“cobots”等。

2.6、语音识别

语音识别主要是关注自动且准确地转录人类的语音技术。

语音识别的主要应用包括医疗听写、语音书写、电脑系统声控、电话客服等。最近推出了一个允许用户通过语音下单的移动 APP。

三、人工智能技术领域和应用案例

3.1. 人工智能应用案例

人工智能在各个领域的应用

在新闻领域，基于大数据和人工智能的个性化推荐已成为不少新闻 App 的标配，写稿机器人、智能视频剪刀手等生产工具也在不断涌现;

在教育领域，人工智能已经被应用在批改作业、教英文等教学项目，探索“私人订制”“千人千面”的个性化学习模式;

在语音识别和翻译领域，翻译软件已经可以支持全球数十种热门语言互译、覆盖几百个翻译方向;

在金融领域，生物识别技术的应用使得刷脸支付已成为现实，以较低成本提供个性化专属财富管理方案的智能投顾也已在不断发展中;

在物流领域，智能分单、智能配送机器人、无人仓、无人机等产品和服务，已在不断帮助快递业提升物流速度和服务水平;

在零售领域，除了无人超市等吸引眼球的探索性应用外，人工智能还被用来对超市的生鲜商品进货量进行预测;

在交通领域，除了地图、导航等应用外，备受关注的无人驾驶也有了新的进展;

在医疗领域，利用 AI 和大数据的能力，可以让机器筛查和分析医学影像，来辅助医生诊断;

至于已经形态化的产品，小编给大家举几个实例。

人工智能车牌识别系统

具体功能：车辆牌照自动识别(信息包括完整的牌照信息，颜色、字符、汉字、数字全面完整的识别)。车速的自动准确检测、违法黑牌照车辆的抓拍报警、车辆识别信息与车管所车辆信息的及时联动、操作权限的分立、前端采集信息的实时上传以及网络断点续传等主流功能。

人工智能辅助驾驶

微软人工智能 Torque 中文版

去年 2 月份，微软发布了一款为安卓平台的中国用户度身打造、以手势驱动并语音交互的人工智能产品 Torque 中文版。作为微软在安卓平台上的首个人工智能产品，同时也是微软首个针对可穿戴设备的中文产品，Torque 的目标是用最小的界面把信息的传递做到最直接、最及时。Torque 的诞生解放了安卓用户的双手，用户只需要轻轻摇动手腕，然后对它说：“快乐大本营主持人”，“最近的肯德基在哪”，“打电话给某某某”等指令，就能体验以极简的动作轻松得到信息和完成更多任务——这也正是微软对移动互联时代，移动生产力和效率的理解。

人工智能仿生眼

英国曼彻斯特皇家眼科医院已经成功实施了世界首例人工仿生机器眼移植治疗老年性视网膜黄斑变性 (AMD) 所导致失明的手术。这个人工智能仿生眼装置被称为 Argus II，由两部分组成：1、体内植入部分和体外病人必须穿戴的部分。植入设备将植入到病人的视网膜上，设备中含有电极阵列，电池和一个无线天线。2、外部设备包含一副眼镜，内置前向的摄像头和无线电发射器以及一个视频处理单元。

Skype 实时翻译工具

微软的一款人工智能产品—实时翻译工具 Skype Translator 将语音识别技术和微软所谓的“深度神经网络及微软已得到证明的静态机器翻译技术”结合在一起。能自动翻译不同语言的语音通话和即时通信消息。目前支持英语、西班牙语、意大利语和汉语普通话。此外，即时通信消息的翻译已支持 50 种语言，包括法语、日语、阿拉伯语、威尔士语，甚至克林贡语。就像小编上面说的，人工智能并不只有机器人一种形态，从领域上来看，包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

四、如何选择人工智能项目

1. 怎样选择人工智能项目

技术考察：技术是否可以实现

商业考察：是否符合商业模式

价值考察：是否可以创造价值，提升价值

道德考察：是否遵循道德规则和底线

五、人工智能的发展和未来

1. 人工智能产业属于战略性产业，全球各国家、企业都纷纷抢占技术制高点。我国人工智能产业技术基础已经具备，各应用场景的技术研发及落地也进展顺利，人工智能的产业化应用趋势日趋明朗。

2. 人工智能应用场景侧变现在即，发展前景及钱景都不可限量。2019 年中国人工智能市场规模达到 489.3 亿元，增长率 27.5%。人工智能的场景落地以及市场开拓将在各行各业中稳定展开。预计到 2022 年，中国人工智能市场规模将超过千亿元、人工智能是典型的高增速、大增量的蓝海市场，未来行业发展前景广阔。

3. 人工智能应用技术多元化，市场分割性强，有较好投资切入点。人工智能技术门槛较高，目前大多数的领域的发展还依赖于国家技术战略的推动以及资本的推动。人工智能的市场分割性主要存在于技术应用场景方面，巨头大而全的布局难以深度介入，这也正是初创企业以及正在转型的非巨头上市公司机会所在。

————————————————

文章源于网络，侵删。

原文链接：https://zhuanlan.zhihu.com/p/556493184

正文完