2025-03-04
机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能
神经网络是一种模拟生物神经网络结构和功能的数学模型,用于对函数进行估计或近似
2025-03-05
迁移学习是一种机器学习方法,其中在一个任务上学到的知识被用来改进另一个不同但相关的任务上的学习,这可以加快学习过程
机器学习的核心,包括训练数据和测试数据,数据的质量、数量和特征对模型性能有重要影响。
数据的属性或特征,是模型学习的依据,特征工程包括特征选择、特征提取和特征转换等操作
机器学习算法基于数据训练得到的数学表示或规则集合,用于对新数据进行预测或分类
使用训练数据对模型进行参数调整,使模型尽可能拟合数据的过程。
利用训练好的模型对未知数据进行输出的过程,如预测房价、判断图像类别等。 学习方式
使用带有标签的数据进行训练,模型学习输入与输出之间的映射关系,用于分类和回归任务。
使用没有标签的数据进行训练,模型发现数据中的结构和模式,用于聚类和降维任务
结合少量有标签数据和大量无标签数据进行学习,适用于获取标签数据成本较高的场景
用于建模和分析两个变量之间线性关系的统计方法。常用于回归任务,预测连续的数值,如房价预测。
英文叫Logistic Regression,用于二分类任务,预测类别,如垃圾邮件分类。
英文简称SVM,用于分类任务,构建超平面进行分类,对小样本、高维数据具有较好的分类效果。
由多个决策树组成的集成学习方法,用于分类和回归任务,具有较高的准确性和鲁棒性。
英文(K-Nearest Neighbors, KNN),基于最近邻原则进行分类和回归,简单易用。
英文(Naive Bayes),基于贝叶斯定理的分类算法,假设特征之间相互独立,适用于文本分类等任务
英文(k-means clustering),通过聚类中心将数据分组,是最常用的聚类算法之一。
英文(Neural Networks),由多个神经元组成的前馈神经网络,可用于解决复杂的非线性问题。
专门用于处理图像数据,利用卷积层提取图像的局部特征,池化层进行特征降维,在图像识别、目标检测等领域取得了巨大成功
适用于处理序列数据,如文本、语音等,通过记忆单元保存序列中的历史信息,可用于语言模型、机器翻译等任务。
由生成器和判别器组成,通过对抗训练生成逼真的数据,如生成图像、文本等,在图像生成、数据增强等方面有广泛应用。
英文(eXtreme Gradient Boosting),一种高效的梯度提升树算法,用于分类和回归任务,具有较高的准确性和计算效率。
英文(Light Gradient Boosting Machine),一种轻量级的梯度提升树算法,适用于大规模数据训练,如广告点击预测、金融风险评估等
英文(Categorical Boosting)一种基于梯度提升的算法,擅长处理类别特征,适用于分类问题、推荐系统等
深度学习(Deep Learning)特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上,结合当代大数据和大算力的发展而发展出来的。
英文(Neural Networks),由多个神经元组成的计算模型,用于模拟人脑的神经元连接,是深度学习的基础。
英文(Multilayer Perceptron, MLP),一种简单的前馈神经网络,由多个全连接的神经网络层组成,适用于解决分类和回归问题。
英文(Convolutional Neural Networks, CNN),专门用于处理具有网格结构的数据(如图像)的神经网络,通过卷积层、池化层和全连接层等组件,实现对图像的有效识别和分类。
英文(Recurrent Neural Networks, RNN),适用于处理序列数据的神经网络,通过循环结构和记忆单元,能够处理具有时间依赖性的数据。
英文(Long Short-Term Memory, LSTM),一种特殊的RNN,能够学习长期依赖信息,适用于处理更复杂的序列数据。
英文(Generative Adversarial Networks, GAN),由生成器和判别器组成的模型,通过对抗训练生成逼真的数据。
Transformer模型是一种基于自注意力机制的模型,最初用于自然语言处理,但已扩展到图像处理等领域。
AlexNet 是一种经典的CNN模型。AlexNet 的网络结构包含 8 层,其中有 5 个卷积层和 3 个全连接层,开创性地使用了 GPU 加速和 dropout 正则化技术
ResNet(Residual Network,残差网络),通过引入残差连接解决了深层网络训练中的梯度消失问题,适用于构建非常深的神经网络。
一种高效的CNN模型,由 Google 团队提出,旨在通过引入多尺度卷积和模块化设计来提高模型的性能和效率
全称Vision Transformer,将Transformer应用于图像处理,通过将图像划分为小块并用Transformer处理,简化了传统卷积神经网络的复杂性。
全称(Segment Anything Model),一种通用的图像分割模型,能够实现精准的图像分割。
全称(Generative Pre-trained Transformer 4),OpenAI开发的先进语言模型,擅长生成高质量的自然语言,支持多语言翻译和代码生成.
全称(Pathways Language Model 2),Google的顶级语言模型,主攻多语言和多模态能力,在图片生成、视频描述和音频处理上表现出色
全称(Contrastive Language-Image Pre-training),由OpenAI提出的一种连接图像和文本的模型,通过学习图片与文本描述的关联,实现零样本分类和图像搜索等任务
Flamingo 是一种创新的视觉语言模型(Visual Language Model),专注于图文结合的多模态任务,擅长图像描述生成和视频理解。
DeepMind开发的强化学习模型,能够在没有任何人类知识输入的情况下,仅通过自我对弈就掌握复杂的棋类游戏。在围棋、国际象棋等领域表现出色,具有强大的泛化能力。
DreamerV3 是一种由 DeepMind 开发的高级无监督强化学习框架,基于模型的强化学习方法,通过模拟环境的未来状态,提高学习效率,应用于机器人操作和复杂策略规划
自然语言处理(NLP)是人工智能领域的重要研究方向, 融合了语言学、计算机科学、机器学习、数学、认知心理学等多个学科领域的知识,是一门集计算机科学、人工智能和语言学于一体的交叉学科。
在自然语言处理中,文本预处理是一个重要的步骤,包括文本清洗(去除HTML标签、特殊字符等)、分词(将文本划分为独立的词汇单元)、词性标注(确定每个词汇的词性)等。 3 词嵌入(Word Embedding):将词汇转换为
英文(Word Embedding),将词汇转换为计算机可理解的向量表示的过程,常见的词嵌入技术包括Word2Vec、GloVe等。
全称(Semantic Analysis),通过分析文本中的词汇和句子结构,计算机可以判断文本的情感倾向,如积极、消极或中性。
近年来NLP领域的重要突破之一,采用了自注意力机制(Self-Attention),能够更好地捕捉文本中的远距离依赖关系。代表性模型包括BERT、GPT和T5等
全称(idirectional Encoder Representations from Transformers):一种基于Transformer的预训练语言模型,适用于需要理解输入语义的任务,如句子分类、命名实体识别
全称(Generative Pretrained Transformer):一种基于Transformer的预训练语言模型,适用于生成式任务,如文本生成。
全称(Pre-training and Fine-tuning):当前NLP模型训练的主流方法,首先在大规模无监督文本数据上进行预训练,然后在特定任务上进行微调
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像
全称(Image Processing):对图像进行各种操作和分析的过程,包括图像增强、滤波、边缘检测等
全称(Feature Extraction):从图像中提取有用信息的过程,这些信息可以用于图像分类、目标检测等任务。
全称(Image Segmentation):将图像划分为多个区域或对象的过程,以便更好地理解和分析图像内容。
全称(Object Detection):在图像或视频中识别并定位多个目标对象的过程,输出目标的位置和类别。
全称(Image Classification):将图像分为预定义类别之一的任务,例如判断一张图片是猫还是狗
全称(Semantic Segmentation):将图像中的每个像素分配到一个语义类别,例如将道路、建筑物、行人等区分开来。
全称(Instance Segmentation):在语义分割的基础上,进一步区分同一类别中的不同实例,例如区分不同的车辆。
全称(Panoptic Segmentation):结合了语义分割和实例分割,能够同时处理可数对象和背景区域。
全称(Pose Estimation):旨在确定图像或视频中人体或物体的姿态,包括关键点的位置和角度。
全称(Depth Estimation):从单目或立体图像中估计场景的深度信息,用于3D重建和增强现实等应用。
全称(3D Reconstruction):通过多视角几何原理,从二维图像中重建三维场景或物体的形状和结构。
全称(You Only Look Once):一种实时目标检测算法,将目标检测任务转化为回归问题,能够快速准确地检测目标。
一种两阶段目标检测算法,使用区域建议网络(RPN)生成候选区域,然后进行分类和回归。
Mask R-CNN是一种在Faster R-CNN的基础上增加了分割分支,能够同时进行目标检测和实例分割。
强化学习(Reinforcement Learning,简称RL)是一种机器学习技术,其中智能体通过与环境的交互来学习如何最大化累积奖励
全称(Q-Learning):一种无模型的强化学习算法,通过更新状态-动作价值函数Q(s,a)来学习最优策略。
全称(Deep Q-Network, DQN):结合深度学习和Q学习的算法,使用神经网络近似Q函数,能够处理高维状态空间。
全称(Policy Gradient):直接优化策略的算法,通过计算策略的梯度来更新参数,如REINFORCE算法。
结合了价值函数和策略梯度的方法,使用两个神经网络分别表示策略(Actor)和价值函数(Critic)。
蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS):一种用于决策过程的搜索算法,通过模拟多次随机抽样来评估动作的价值,常用于游戏中的决策。
全称(Meta Reinforcement Learning):关注如何让智能体快速学习新任务的算法,具有“学习去学习”的含义。
AI-Gcncrated Content,是指基于人工智能技术,通过已有数据寻找规律,并通过适当的泛化能力生成相关内容的技术,可以生成常见的如图像、文本、音频、视频等内容。
RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合了信息检索技术和生成式语言模型的人工智能技术
由谷歌开发的开源机器学习框架,擅长机器学习和深度学习应用程序,提供无与伦比的灵活性和可扩展性。支持多平台(CPU、GPU、TPU),拥有TensorBoard可视化工具,广泛用于计算机视觉、自然语言处理及预测分析。
由Facebook开发的开源机器学习框架,因其动态计算图和用户友好的界面而受到学术界的青睐。适合构建和实施机器学习模型,生产就绪,支持主要云平台。
GPU(图形处理器)是一种专为并行计算和图形渲染优化的处理器。与CPU(中央处理器)不同,GPU通过大规模并行架构实现高效处理海量数据
NVLink 是 NVIDIA 推出的一种高性能互联技术,旨在提升 GPU 之间的数据通信效率和 GPU 访问主机内存的性能。