人工智能基础学习笔记

260次阅读

人工智能的起源、定义与发展

定义：

计算机的一个分支，了解智能的实质，生产出一种全新的以人类智能相似的方式作出反应的机器。

研究，开发用于模拟延伸、扩展人的智能的理论和方法技术及应用系统的一门科学。

智能体的某一特性方面被精确的加以描述，使得机器可以对其实现模拟。

人工智能发展历史

人工智能的理论基础，得益于上世纪的逻辑学，计算机科学、信息论、控制论等多学科的发展和交汇，人工智能的理论基础是，认为人的思维活动是可以用机械的方式替代和完成的，主要贡献者，罗素、怀德海、希尔伯特、哥德尔、图灵等。

AI 的发展历史（1956 年 -1974 年）

符号主义，基于逻辑推理的智能模拟方法模拟人的智能行为；专家系统，内部含有大量的专家水平的知识和经验，利用人类专家的知识和解决问题的方法处理领域问题。

连接主义，主张模仿人类的神经元，用神经网络的连接机制实现人工智能，感知机的提出，早的起的神经网络。

第一次寒冬（1974 年~1980 年）

局限性，人工智能所使用的数据模型和手段有缺陷，被认为是玩具模型。

算力不足，在很多计算问题上，都有一个计算的复杂度问题，使得计算任务复杂度呈现指数级增长。

第二次的浪潮（1980 年~2000 年）

统计学派，统计学穿甲替代原有的专家系统。

机器学习，多挣神经网络的逐步发展，用于模式的识别；反向传播算法的出现，加速神经网络的发展。

第三次的浪潮（2006 年~ 至今）

新的数学工具与力量的引入，卷积神经网络和循环神经网络。

计算能力的提升，CPU 的发展，GPU、TPU 的出现。

大数据的广泛应用，大规模数据采集、存储和分析成为可能。

人工智能的未来发展趋势

图像、视频、文本等生成与处理任然是重要的发展方向。

5G 技术发展促进物端计算，AI 与物端的结合。

AI 框架本身基于人工智能方法化。

应用领域

图像处理

图像识别与物体检测，自动驾驶驾驶领域，人脸识别，用于安防检测等。

智能语音交互

智能语音客服，直播字幕，机器翻译等。

自然语言处理

语义检索，情报分析等。

机器人

基于图像识别，物体检测，语音交互等。

人工智能、机器学习、深度学习的区别

三者都有着统一的目标，就是赋予机器以人的智能，让机器能够像人一样的思考和解决问题，做出决策。

机器学习实现人工智能的途径是使用算法分析数据，从中学习数据的特征，并进行归纳判断。

深度学习是机器学习的一类重要特征，采用非线性函数学习数据特征，并进行判断，属于机器习题解决图像、语音、文本等领域的一个重要分支。

基于学习策略的分类，根据经典学习策略是否基于经典数学原理还是模拟人脑进行划分。

传统机器学习，基于统计、概率、线性代数、数学原理，通过分析输入数据的模式，进行判断与预测。

深度学习，机器学习的一个重要分支，通过模拟人类大脑的感知与组织方式，通过人工神经网络构建，分析输入数据，进行判断与预测。

基于学习方式进行划分，根据学习是否需要输入数据以及输入数据是否需要标注进行划分。

有监督学习，每组的输入数据都有明确的数据标识，学习过程是将学习预测的结果对比，不断调整模型，直到预测结果达到一个预期的准确率。应用场景，分类、回归等。

无监督学习，输入的数据无需提前标注，不存在目标变量，基于数据本身识别变量之间内在的模式和特征。应用场景关联分析，聚类等。

强化学习，一种以试错的方式进行的学习，通过与环境进行交互获得的奖赏知道行为，目标是使智能体获得最大的奖赏或实现特定目标。输入数据，不要求预先给定任何数据，通过接受环境对动作的奖励获得学习信息，输出模型参数，应用领域，机器人控制，计算机视觉与自然语言处理。

传统机器学习与深度学习的对比

学习策略

传统机器学习，基于统计、概率、线性代数等数学原理，通过分析输入数据是的模式，进行判断与预测。

深度学习，机器学习的一个重要分支，通过模拟人大大脑的感知与组织工作方式，通过人工神经网络的构建，分析输入数据进行判断与预测。

问题领域

传统机器学习，分类问题，邮件识别；回归，销量预测，股市预测等；聚类，用户画像；协同过滤如推荐系统。

深度学习，图像识别，图像分类检测等；语音交互，语音交互、语音转换合成等。自然语言处理，机器翻译，语音识别等。

算法对比

传统机器学习

分类：决策树、逻辑回归、随机森林等。

回归：线性回归，岭回归等。

聚类：k-means，DBSCAN 等。

形同过滤，Aprori、SVD 等。

深度学习

图像识别，卷积神经网络.

语音交互，循环神经网络、LSTM

自然语言处理，循环神经网络、LSTM

技术栈的对比

传统机器学习

分布式框架，Spark MLlib,MapReduce，Mahout

单机开发框架，Sklearn

支持语言，Python，C++，Scala

硬件支持，CPU

深度学习

分布式开发框架，TensorFlow，PAI 等

单机开发框架，TensorFlow，PyThon，Keras，Caffe，PAI

支持语言，Python，C++

硬件支持，CPU、GPU、TPU

执行时间

传统机器学习

数据量：较小，MB、GB

执行时间，分钟级别、小时级别

深度学习

GB、TB 级别

小时级别到天级别

深度学习的开发体系过程及工具

深度学习的理论支持

数学理论，微积分、线性代数、信息论、概率、图论

算法知识，机器学习，神经网络

开发技术，软件技术，硬件技术

深度学习的总体流程

数据准备，数据集的准备，包含被标识和未被标识的数据。

采集数据，准备用于学习训练的数据，包括训练集和测试集。

对于有监督学习还需要对数据进行标注。

数据预处理，例如图片的灰度化，语音数据转换，数据整合等。

特征工程，选择和提取合适的特征进行模型构建。

将领域内的知识输入特征提取器，降低数据复杂度，使数据中的模式对学习锻打更加明显。

使用算法或依据经验知识提取带分析数据主要特征。

模型设计，依赖数据的收集和特征提取，根据一定的算法设计模型。

判断待分析问题的所属类别，依据现有算法或自行构建算法模型，通过数据集上训练获得模型参数，评估函数好坏，即计算函数误差。

数据预测，使用获得的模型进行预测。

使用训练好的模型，对新输入新产生的数据进行预测。

深度学习的开发工具

TensorFlow，面向深度学习的开发框架，2015 年 11 月由谷歌发布，可以很好的支持深度学习神经网络的各种算法，其应用也不局限于深度学习。前置知识需要 Python 开发，神经网络基础知识。

Keras，高级神经网络 API，用 Python 编写的一个高度模块化的神经网路库，能够以 TensorFlow 等作为后端运行，支 GPU 和 CPU，用户友好，高度模块化，可扩展性强，允许快速简单而快速的原型设计，支持快速实验。

PyTorch，是在 Python 上的衍生，采用动态计算图，产生的 tensor 可以放在 GPU 中加速计算。

Caffe，基于 C ++ 开发的深度学习框架，纯粹的 C ++/CUDA 架构，支持命令行，Python 和 MATLAB 接口，可以在 CPU 与 GPU 中无缝切换，速度快，模块化，前置知识，C++ 开发，神经网络基础，CUDA 开发。

阿里云人工智能开发工具 PAI，为传统的机器学习和深度学习提供了数据处理，模型训练，服务部署到预测的一站式服务，组件云端交互式代码开发工具 PAI-DSW，机器学习可视化开发工具 PAI-Studio，模型在线部署服务 PAI-EAS。

阿里云的人工智能 API 服务，针对常见的人工智能应用场景提供 API 调用服务，人脸识别，自然语言处理，语音合成，图像识别等。用户直接对用 API 开发应用即可。

自然语言处理的定义、主要技术及应用场景

定义：自然语言处理是人工智能个语言领域的一个分支，研究如何处理及运用自然语言，让计算机利用信息的语义结构来理解人类语言的含义。

主要技术

自然语言理解

理解文本的含义，文本中的每个单词特性以及就结构都需要被理解

特别处理

词法的歧义性，单词的多重含义

语句歧义性，语句的多重解析树

语义歧义性，句子的多重含义

回指歧义性，之前提到的短语或语句在后面句子中有不同的含义

自然语言生成

从结构化的数据中可读地方式自动生成文本的过程

文本规划，完成结构化数据中基础内容的规划。

语句规划，从结构化数据中组合语句，来表达信息流

实现，产生语法通顺的语句来表达文本。

自然语言处理的应用

情感分析，基于自然语言处理，对文本分词，停用词处理，最后分析文本或文档的正负面评价。

机器翻译，根据输入的文本和文档，通过自然语言的处理和神经网络将其翻译成目标语言和文本或文档。

知识图谱，更好的查询复杂的关联信息，从语层面理解用户意图，改进搜索质量。

知识抽取，基于自然语言处理完成非结构化数据的处理。

图像智能处理的定义、主要技术及应用场景

计算机科学分支领域，获取图像后使用计算机技术对图像进行分析和理解。对图像中客观对象构建明确而有意义的描述，基于感知图像做出对于客观对象和场景有用的决策。

关键技术图像分类、对象检测、目标追踪、语义分割。

图像分类，对图像中主体对象的视觉外观进行判断，确定图像类别，应用场景，相册管理，图像打标，场景分类，图像检索等。主要技术是使用神经卷积网络来实现。

对象检测，对图像中多个目标进行识别，为其输出边界框和对象标签，同时确定其位置。使用场景是自动驾驶、车辆检测、人脸检测、运动目标检测、安防视屏分析等。关键技术，基于神经网络技术寻找可能包含对象的区域，再在这些区域进行卷积神经网络识别对象，基于 SVM 输出对象边界框。

语义分割，让计算机根据语义从像素的角度分割出图片中的不同对象，对原图中的每个像素进行标注，应用场景，地理信息系统，无人车驾驶，医疗影像分析等。关键技术，全卷积神经网络，输入的是一张图片，输出的也是一张图片，学习像素的映射，端到端的映射。

目标追踪，在特定的场景中跟踪某一个或多个特定的感兴趣的对象的过程，在一段视序列中对所有特定的目标进行持久的鲁棒性追踪。应用场景，自动驾驶，视屏分析等。关键技术分两类，生成式方法，在当前帧对目标进行区域建模，在下一帧寻找与模型最相似的区域，既预测。判别式方法，基于图像特征和机器学习，在当前帧中以目标区域为正样本，北京区域为负样本，通过机器学习方法训练分类器，在下一帧中用训练好的分类器找到最优区域。

语音识别基础

定义，以语音为研究对象，通过语音信号处理和模式识别人机器自动识别和理解人类对的语言，与声学、语言学、信息理论、模式识别以及神经网络等学科都模切相关。基本原来，语音输入、语音信号预处理、特征提取、模式匹配、识别结果。

构建方法，收集语音语言，信号处理和挖掘，离线训练，在线识别。前端模块用于降噪和特征的提取，后端模块利用声学模型隔和语音模型对用户说话的特征向量进行统计模式识别，得到其包含的文字信息。

对话系统，连续的语音识别中搜索，寻找一个词模型序列面向书语音信号，从而得到词解码序列，用于实现人机口语对话系统，童昂面向一个狭窄的领域和词汇量有限的系统，例如旅游查询、数据库检索等。关键技术，声音波形的采集，声音的分帧，波形转换，矩阵变换等，判断买某个词语的概率为多要，完成语言识别。或者基于神经网络。

知识图谱

知识图谱值得是语义网络的知识库，既多关系图，包含多种类型的节点，把所有不同类信息连接在一起而得到的关系网络，提供关系角度的分析问题能力。

知识图谱的构建，定义具体的业务问题，数据收集与预处理，知识图谱的设计，知识存储，基于知识图谱的开发应用。

关键技术，实体命名及识别，识别文中的主体，并进行分类，关系抽取，把实体键的关系中文本中提取出来，实体统一，有些实体写法不一样，但其实指向同一实体，指代的消减，代词指向哪个实体。

应用，通过数据前后的一致性，验证信息真伪。

原文链接：https://www.bilibili.com/read/cv17159332

正文完