凡科网站空间慢企业网站程序-Seo优化-嘉义县网站建设公司

凡科网站空间慢,企业网站程序,渠道推广,wordpress有赞云目录文章目录目录1990 年#xff1a;RNN#xff08;循环神经网络#xff09;序列数据模型结构数学表达训练算法#xff1a;时间反向传播#xff08;BPTT#xff09;RNN 的挑战#xff1a;长期依赖问题1997 年#xff1a;LSTM 网络模型结构与数学表达解决梯度消失问题R…目录文章目录目录1990 年RNN循环神经网络序列数据模型结构数学表达训练算法时间反向传播BPTTRNN 的挑战长期依赖问题1997 年LSTM 网络模型结构与数学表达解决梯度消失问题RNN v.s LSTM2014 年GRU门控循环单元模型结构和数据表达2017 年Transformer 架构1990 年RNN循环神经网络1990 年Jeffrey Elman 发表论文《Finding structure in time在时间中寻找结构》提出了 SRNSimple Recurrent Network简单循环网络才第一次开启了对序列数据文本、时间序列的深度学习研究开创了 “记忆历史信息” 的先河。再后来专为处理序列数据而设计的 RNNRecurrent Neural Networks循环神经网络的核心理念就源自于 SRN。序列数据在 AI 领域文本翻译、语音识别、股价预测等场景都离不开序列数据处理。与独立的图像或表格数据不同序列数据中的元素具有内在的顺序和时间依赖性。典型的例子包括自然语言文本单词的顺序决定了句子的含义。时间序列数据股票价格、天气读数或传感器数据其当前值与历史值密切相关。语音和音频声波是随时间变化的连续信号。视频由一系列有序的图像帧组成。传统的 FFNFeedforward Neural Networks前馈神经网络或 CNN卷积神经网络在处理这类数据时会遇到根本性的困难因为它们假设所有输入都是相互独立的所以无法捕捉到数据点之间的时序关系。比如在处理一个句子时FNN 会孤立地看待每个单词从而丢失了至关重要的上下文信息。为了解决这个问题我们需要一种能够 “记忆过去” 信息的模型而这正是 RNN 的设计初衷。相较于 Hopfield Network虽然它也能 “记忆”但它属于 “联想记忆”而非 “历史记忆”所以并不适用于处理序列数据的场景。模型结构RNN 的核心是让模型 “记住过去”。通过在隐藏层Hidden Layer添加循环连接实现将前一时刻的信息传递到当前时刻从而捕捉序列的时序关联。但这种 “全记忆” 设计也埋下了梯度消失的隐患。如下图所示RNN 和 FFN 结构的主要区别就是 RNN 引入了一个循环结构RNN 在每个时间步t处理一个序列元素时不仅会接收当前的输入还会接收来自上一个时间步t-1的隐藏状态Hidden State。这个隐藏状态就是 “历史记忆”是 RNN 到目前为止所被处理过的序列数据的一个 “历史记忆”。可见每一个隐藏层节点的 “当前记忆” 都由 “当前输入” 和 “历史记忆” 来共同决定的。如下图所示一个 RNN 单元看起来就像是一个环路的人工神经元。对于每个时间步 t该单元接收当前输入 x_t 和前一时间步的隐藏状态 h_t-1然后计算出当前时间步的隐藏状态 h_t 和输出 y_t。再把这个循环的过程可 unfold展开就可以看见一个具有时间属性的 “神经元序列”这样更容易理解序列数据是如何在不同的时间步之间进行 “有序” 传递的。同时展开后的 RNN 网络看起来像一个很深的 FFN 网络其中每一层都代表一个时间步并且所有时间步共享相同的权重矩阵。数学表达简单 RNN 的核心计算可以用以下两个公式来描述隐藏状态的计算h_tf(W_hh * h_t-1 W_xh * x_t b_h)输出的计算y_tW_hy * h_t b_y其中x_t在时间步 t 的输入向量如文本中的词向量。h_t, h_t-1在时间步 h_t 或 t-1 的隐藏状态即历史信息是核心的记忆载体。y_t在时间步 t 的输出。W_xh, W_hh, W_hy分别是输入层到隐藏层、隐藏层到自循环隐藏层、隐藏层到输出层的权重矩阵。作为共享参数在所有时间步中是共享的。W_xh 形状隐藏层维度 × 输入维度W_hh 形状隐藏层维度 × 隐藏层维度关键W_hy 形状输出维度 × 隐藏层维度b_h, b_y分别是隐藏层和输出层的偏置量。b_h 形状隐藏层维度 × 1b_y 形状输出维度 × 1f激活函数隐藏层用 tanh值缩至 [-1,1]。输出层用 Softmax分类或线性激活回归训练算法时间反向传播BPTTRNN 的训练通过 BPTTBackpropagation Through Time时间反向传播来完成本质上是标准 BP 反向传播算法在 Unfold 展开后的 RNN 上的具体应用。Loss 损失函数在每个时间步 t 计算然后将梯度从最后一个时间步开始沿着时间序列反向传播并用这些梯度来更新共享的 W_xh, W_hh, W_hy 权重矩阵。RNN 的挑战长期依赖问题尽管 RNN 的设计在理论上能够捕捉任意长度的序列依赖关系但在实践中它们很难学习到 “长期依赖”Long-Term Dependencies。即当序列过长时早期信息的梯度会逐渐消失导致模型无法记住早期信息例如“我昨天吃了苹果今天想吃__”RNN 可能会忘记前面的 “苹果”。长期依赖问题主要源于梯度消失Vanishing Gradients和梯度爆炸Exploding Gradients梯度消失1991 年Sepp Hochreiter 在他的毕业论文中阐述了梯度消失问题当梯度在稍微深一点网络中反向传播时就会发现训练过程中前面层的参数几乎不更新核心的原因是 “累乘衰减”。具体而言在通过 BPTT 反向传播梯度时如果激活函数如 tanh的导数持续小于 1那么梯度在每一步传播时都会被乘以一个小于 1 的权重矩阵。经过许多时间步后梯度会变得非常小几乎接近于零。这导致网络无法有效地更新与早期时间步相关的权重从而 “忘记” 了久远的信息。梯度爆炸相反如果权重矩阵的值很大梯度在反向传播过程中可能会指数级增长导致数值溢出和训练过程的不稳定。虽然梯度爆炸可以通过梯度裁剪Gradient Clipping等技术相对容易地解决但梯度消失问题则更为棘手。可见由于梯度消失问题RNN 的 “历史记忆” 实际上是短暂的这限制了它在需要理解长篇文本或分析长期时间序列等任务中的应用。1997 年LSTM 网络1997 年Sepp Hochreiter 和 Jürgen Schmidhuber 发表了论文《Long Short-Term Memory》提出了 LSTM长短期记忆网络为了解决 RNN 的梯度消失问题。LSTM 是一种特殊且复杂的 RNN它通过引入遗忘门、输入门和输出门等门控机制来解决 RNN 的梯度消失问题能够学习 “何时” 记忆信息、何时遗忘信息以及何时输出信息。模型结构与数学表达如下图所示LSTM 在模型结构的关键创新是引入了一个 Memory Cell记忆细胞并在内部实现了 “输入门控输出” 的控制机制以此来解决梯度消失的问题。输入包括当前输入、上一时间步的隐藏状态Hidden State、上一时间步的细胞状态Cell State。门控每个 Cell 包含了 “记忆、遗忘、输出” 这 3 个关键的门它们互相协作共同更新当前时间步的细胞状态如图最上方连线。门的本质是一个由 Sigmoid 激活函数和一个点积乘法操作组成的神经网络层。Sigmoid 函数的输出在 0~1 之间这个值决定了有多少信息可以通过。0 表示 “完全不允许通过”而 1 表示 “完全允许通过”。输出包括当前细胞状态和当前输出。遗忘门Forget Gate决定应该从细胞状态中丢弃哪些旧信息。它查看 h_t-1 和 x_t并为 C_t-1 中的每个数字输出一个 0~1 之间的值。这个值代表了保留或遗忘的程度。f_tσ(W_f *[h_t-1, x_t] b_f)输入门Input Gate决定哪些新信息应该被存放在细胞状态中。首先 sigmoid 层决定需要更新哪些值。然后 tanh 层创建一个新的候选值向量 C̃_t该向量可以被添加到细胞状态中。i_tσ(W_i *[h_t-1, x_t] b_i)C̃_ttanh(W_c *[h_t-1, x_t] b_c)细胞状态更新更新旧的细胞状态 C_t-1 为新的细胞状态 C_t。先将 C_t-1* f_t要遗忘的旧信息然后 “” 加上 i_t * C̃_t要添加的新信息。C_tf_t * C_t-1 i_t * C̃_t输出门 (Output Gate)决定细胞要输出什么。首先 sigmoid 层决定细胞状态 C_t 的哪些部分将要输出。然后 C_t 通过 tanh 函数将其值缩放到 -1~1 之间并将其与 sigmoid 层的输出相乘从而只会输出了想要输出的部分。这个输出就是新的隐藏状态 h_t。o_tσ(W_o *[h_t-1, x_t] b_o)h_to_t * tanh(C_t)解决梯度消失问题上述过程可知LSTM Memory Cell 中的门控机制约束了哪些信息是可以遗忘的、哪些信息是可以记住的、哪些信息是可以输出的。其独特的 Cell State 更新公式 C_t f_t * C_t-1 …让 C_t 的梯度包含一个 f_t 因子通过学习遗忘门可以设置 f_t 为接近 1 的值从而允许梯度在许多时间步内几乎无衰减地流动这样就解决了 RNN “累积衰减” 的问题。这种结构使得网络更容易学习和保持长期依赖关系。RNN v.s LSTMRNN 作为序列建模的 “基石”以简单的循环结构开创了历史信息复用的思路但受限于梯度消失无法处理长序列LSTM 则通过记忆细胞和门控机制的创新从梯度传递路径上解决了长期依赖问题成为长序列任务的经典方案。2014 年GRU门控循环单元2014 年Cho 等人提出了 GRU门控循环单元是 LSTM 的一个简化版本。它保持了与 LSTM 相当性能的同时结构更简单参数更少计算效率更高。模型结构和数据表达GRU 在模型结构上的主要创新在于它将 LSTM 的遗忘门和输入门合并为了一个单一的更新门Update Gate并且它还合并了细胞状态和隐藏状态。所以 GRU 只有两个门更新门Update Gate决定了应该在多大程度上保留前一个时间步的信息以及在多大程度上接收新生成的信息。它类似于 LSTM 中遗忘门和输入门的组合。z_tσ(W_z *[h_t-1, x_t] b_z)重置门Reset Gate决定了在计算新的候选隐藏状态时应该忽略多少过去的信息。如果重置门的输出接近 0那么模型在计算候选状态时将主要依赖于当前输入 x_t。r_tσ(W_r *[h_t-1, x_t] b_r)候选隐藏状态与最终隐藏状态首先使用重置门计算一个候选隐藏状态 h̃_t 重置门 r_t 作用于 h_{t-1}控制了前一状态对候选状态的影响。然后更新门 z_t 在 h_{t-1} 和 h̃_t 之间进行线性插值以产生最终的隐藏状态 h_t。h̃_ttanh(W_h *[r_t * h_t-1, x_t] b_h)h_t(1- z_t)* h_t-1 z_t * h̃_t当 z_t 接近 1 时新的隐藏状态 h_t 主要由候选状态 h̃_t 构成当 z_t 接近 0 时新的隐藏状态 h_t 则几乎完全保留了前一个状态 h_{t-1}。这种机制使得 GRU 也能有效地捕捉长期依赖。2017 年Transformer 架构时至今日虽然像 Transformer 这样的基于注意力机制的新架构在许多 NLP 任务中尤其是在处理超长序列时表现出了更强的性能和更好的并行性但 RNN、LSTM 和 GRU 仍然是序列建模领域不可或缺的基础工具。它们在计算效率、对实时流数据的处理以及在某些特定任务上的表现依然具有优势。2017年Google Brain发表了Attention is All You Need提出了Transformer彻底放弃了传统的循环神经网络RNN和卷积神经网络CNN结构转而完全采用注意力机制来执行机器翻译任务。这一创新犹如火星撞地球一般迅速横扫了整个自然语言处理学术界。彻底改变了自然语言处理NLP领域。对后续的BERT、GPT等模型产生了深远影响。Google 的 Vaswani 等人发明了 Transformer 架构。Transformer 架构基于自注意力机制Self-Attention计算输入序列中每个位置的关系权重如下并行化处理序列数据取代 RNN 的时序依赖成为 GPT 和 BERT 等 AI 模型的核心。OpenAI 团队基于 Transformer 的生成式预训练GPT-3.5 架构使用人类反馈强化学习RLHF对齐模型输出与人类价值观参数量达 1750 亿支持多轮对话和复杂任务推理。被称为大模型。2018年6月OpenAI 发表了Improving Language Understanding by Generative Pre-Training提出了GPT这是一个具有里程碑意义的大规模预训练模型。2018年10月11日Google AI Language发表了BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding提出了BERTGPT 和 BERT它们分别使用自回归语言建模和自编码语言建模作为预训练目标。所有后续的大规模预训练模型都是这两个模型的变体。2020年10月22日Google团队发表An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale提出了Vision TransformerViT虽然不是第一篇将Transformer应用在视觉任务的论文但是因为其模型“简单”且效果好可扩展性强scalable模型越大效果越好成为了transformer在CV领域应用的里程碑著作也引爆了后续相关研究。2021年2月26日OpenAI发表了Learning Transferable Visual Models From Natural Language Supervision提出了CLIP通过对比学习方法将图像与自然语言文本进行配对实现了多模态学习。具备零样本学习能力。为多模态AI的研究和应用奠定了基础推动了图像生成、理解和交互等领域的发展。2021年7月15日和7月22日Google DeepMind在Natrue分别发表论文Highly accurate protein structure prediction with AlphaFoldHighly accurate protein structure prediction for the human proteome发布了AlphaFold 2AlphaFold 2在第十四届国际蛋白质结构预测竞赛CASP上取得惊人的准确度多数预测模型与实验测得的蛋白质结构模型高度一致引起举世瞩目。对生物医学研究、药物设计和生命科学产生了深远影响。2022年12月20日Stability AI发表论文High-Resolution Image Synthesis with Latent Diffusion Models发布了完全开源的Stable Diffusion展示了一种利用扩散过程生成图像的方法是AI绘画领域的一个核心模型能够进行文生图txt2img和图生图img2img等图像生成任务。2022年7月12日David Holz发布了Midjourney一个基于生成对抗网络GANs和深度学习的AI平台通过用户提供的文本描述生成高质量图像。2022年11月30日OpenAI发布了GPT-3.5其产品ChatGPT瞬间成为全球爆品。引起了全球学术界和工业界的大语言模型热潮。以ChatGPT为代表的大语言模型向世人展露出了前所未有的能力。一大波大语言、多模态的预训练模型如雨后春笋般迅速出现。2023年12月1日Albert Gu和Tri Dao发表了论文Mamba: Linear-Time Sequence Modeling with Selective State Spaces提出了Mamba这是一种新的不同于Transformer的处理长序列数据的神经网络架构能够在保持高效率的同时提供出色的性能。对于需要处理大量数据的应用场景如自然语言处理、语音识别和生物信息学等领域具有重要的实际应用价值。

凡科网站空间慢企业网站程序

网站开发者的常用工具广州建设技术职业学院是公办吗

网站怎么做配置文件夹网页设计布局有哪几种方法

房地产集团网站欣赏公司徽标设计图片

企业网页制作与网站设计个人网站和企业网站的区别

济南免费网站建设优化如何把网站做的和别人一样

专业做app下载网站wordpress 4.0 谷歌字体