您当前的位置:首页 >> 新能源
新能源

LSTM 已死,显然真是这样吗?

发布时间:2025-08-31

面性,总和方法有和基于 rnn 的方法有相建构则来得合理。一个这样的例子是 Uber 方法论的 ES-RNN 基本种概念,该基本种概念之后拿下了 M4 体育竞赛:它是一种在兼并的 LSTM 之上用到指数平滑的混合基本种概念。

当然,Transformer 也受到了抉择。对于星期基因组先为报,最常用的方法有是:用到原始的 Transformer,并将前面字节层替换为 Time2vec 层。但是目前为止看,Transformer 基本种概念都无法时是越总和方法有。

另外就是,有几点相同的说明了:

这极为意味着总和方法有总是来得好。例如,如果有大量原始数据,LSTM 的效能也许比 ARIMA 来得好。总和方法有无需来得多的原始数据先为处置:这也许都有使星期基因组的平稳性、抵消季节性、波动性等。 LSTM 可以来得容易地捕捉基因组的自然外观上,数通过用到来得简单的电子技术可以做到这一点。总和方法有的可靠性较差:例如,自复出方法有无法处置将时会推断出的额外外观上。

综上所述,就先为报能力而言,ML 方法有极为总是强于总和方法有。

直到 2018-2019 年,详尽分析才赢取了相当大的进展,浅层进修基本种概念开始在星期基因组先为报使命当中趋于来得具创新能力。 有关星期基因组先为报和浅层进修的来得全面分析:

左图3:Temporal Fusion Transformer

左图4:DeepAR

上头两张左图辨识了两个最新技术的基本种概念。它们分别描述了 Google 的 Temporal Fusion Transformer 和 Amazon 的 DeepAR 的方法论。 从左图当中看到什么有趣的事情了吗?这些基本种概念有很多有趣的偏远地区,但与本文表现形型式有关的极为重要的一点是:

两种基本种概念都用到 LSTM!

DeepAR 是一种繁复的星期基因组基本种概念,它建构了自复出和浅层进修的外观上。 左图 4 辨识的 h_i, t 标量实质上是 LSTM 两节的隐密情况下。 然后用到这些隐密情况下来近似值时域的 μ 和 σ 匹配。 从该分布当中,同样 n 个样本,其当中值代表先为报值。

Temporal Fusion Transformer - TFT 是一种用于星期基因组的多层则有浅层进修基本种概念。 该基本种概念具有 LSTM 字节器-播放器以及提供可表述先为报的与众不同目光前提。

本文当中不时会在这里深入详尽分析这些基本种概念的细微,我们这里只说重点:这两种浅层进修基本种概念都强于宗教性的总和方法有。 此外,这两种基本种概念都来得加标准化,因为它们可以处置多个星期基因组并遵从来得多样的外观上集(TFT 略胜一筹)。

Recurrence 和 Attention 是如何关联的

为了说明了这一点,这里援引 TFT 研究成果的段落:

为了进修相异微小的星期关联,TFT 用到周而复始层进行时均匀分布处置,并用到可表述的自目光层进行时长期依靠进修。

顾及我们目前为止所知道的,以及上头的援引,现今可以把这些点联系上来:

周而复始局域网非常擅长捕捉基因组的均匀分布星期外观上,而目光则来得擅长进修长期动态。

这极为是一个武断的结论,因为TFT 研究成果的写作者通过继续执行消减详尽分析说明了了这一点(消减详尽分析通过删除或替换繁复机器进修管理系统的某些部件以了解到每个部件的贡献)。

TFT 的写作者在其他部件当中测试了 LSTM 字节器-播放器层:通过用原始 Transformer 的国际标准前面字节层替换它来进行时消减详尽分析,之后他们挖掘出了两件事:

seq2seq的用到并能基本种概念的效能。在继续执行基准测试的 5 个原始数据集当中4 个原始数据集,LSTM 层充分利用了来得高的效能。

所以我们可以有把握地得出结论,LSTM 层仍然是星期基因组浅层进修基本种概念当中的不可替代的部件。此外,它们不时会与目光前提相冲突。无论如何它们可以与基于目光的部件相建构,并且以促使提高基本种概念的效能。

LSTM 当中的宝藏:前提条件输入

这是 LSTM 最被忽视的优势之一,但是直到现今许多近来仍然一定会意识到这一点。

如果你并从未用到过普通的RNN,应该时会知道这种一般来说的局域网勉强处置星期原始数据,即有各种依靠关联的以基因组坚称的原始数据。但是它们没法实质上对一个管理系统软件包或不随星期变所谓的原始数据原始数据挖掘。

而在 NLP 当中一个管理系统软件包是不就其的。NLP 基本种概念专注于单字的辞汇汇表,其当中每个单字都通过连在一起进行时坚称,这是整个基本种概念的实质上种概念。单字在文档当中的前面极为重要,重要的是 NLP 基本种概念可以进修每个单字的无论如何表达型式感官坚称(周围单字段落)。所以一个特定的单字可以有相异的连在一起,这取决于它的辞汇和它在句子当中的前面(这里的前面极为是时序而是他前后的单字是什么)。

但是,在星期基因组基本种概念当中,不随星期变所谓的原始数据制约要小得多。例如,有一个无关商店其产品的销售先为报场景。其产品的销售量可以原始数据挖掘为星期基因组,但也时会受到周末等结构上因素的制约。因此,一个好的先为报基本种概念也应该考虑这些表达型式。这就是 TFT 所做的(左图表 5)。但是TFT是如何充分利用的呢?

左图5:结构上一个管理系统表达型式对先为报的制约

TFT专为集成一个管理系统软件包而设计。它用到了各种电子技术,这些电子技术在原始研究成果当中有描述。然而,极为重要的是与lstm有关。

LSTM可以无缝地继续执行这个使命,用到[11]当中首先引入的一个精准:不将LSTM的中期始h_0隐密情况下和相应情况下c_0设立为0(或随机),而是用到指定的标量/连在一上来中期始所谓它们。或者我们可以让这些标量在拟合全过程当中可训练(实质上,这就是TFT所做的)。通过这种方法有,LSTM相应的输入被适当地限制在结构上表达型式上,而不时会制约它的星期依靠性。

LSTM vs TCN

在目光前提和Transformers经常出现之前,还有另一种有望改变全球性的新时代。这些就是星期DFT局域网(TCN)。

TCN 用到兼并DFT,它在相异阔度的读取基因组上进行时padding - 使它们能够检测不仅彼此接近而且在完全相异前面的原始数据之间的依靠关联。

TCN 于 2016 年 [12] 首次引入并于 2018 年 [13] 正型式所谓,它利用DFT局域网对基于基因组的原始数据进行时原始数据挖掘。 它们也是星期基因组先为报使命的理想副手。

左图 6:过滤器较小 k = 3 和兼并q d = 1、2、4 的兼并DFT。 思绪野可以覆盖读取基因组当中的所有原始数据点 x_0 ... x_T。

TCN 的“秘籍”是兼并DFT,如左图 6 标明。国际标准 CNN 用到互换较小的内核/过滤器,因此它们勉强覆盖西侧的原始数据一般来说。 而TCN 用到兼并DFT,对相异阔度的读取基因组进行时padding - 使它们能够检测不仅彼此接近而且设在完全相异前面的新项目之间的依靠关联。

除此之外,还用到残差通到等国际标准的深层CNN所用到的方法有。 这里我们也不时会深入详尽分析细微,只将关心 LSTM 的区别:

较快速:比如说,TCN 比 LSTM 快速,因为它们用到DFT,可以依此完成。 在方法有论当中,通过用到大量兼并和残差通到,TCN 之后也许时会变大。读取阔度:TCN 和 LSTM 都能够遵从径向阔度读取。内存占用:平均值而言,TCN 比 LSTM 无需来得多内存,因为每个基因组都由多个膨胀层处置。这取决于概念每个基本种概念趋于多么繁复的时是匹配。效能:最中期的研究成果说明了 TCN 强于 LSTM。 但是在方法有论当中,情况并非总是如此。 [13] 当中的一项来得详尽的详尽分析说明了,在某些使命当中,TCN 来得好而在其他使命当中LSTM 来得合理。

两种模型式都有其实用性和好处。 一定会之后的获胜者,同样来说最好的方法有是审核它们以及最较难的情况。

但是这种方法有现今好像并从未不切实质了,虽然在缩放标识当中还在大量用到兼并DFT,那是因为缩放的坚称方法有的实用性,与时序的注记原始数据有极大的相异。 另外就是通过应用单个 TCN 或 LSTM 基本种概念来充分利用最新技术的效能这种方法有应该并从未不共存了,现今的近来都时会考虑来得多结构上匹配,这就意味着必需用到多个部件/基本种概念进行时组合成。

Kaggle 当中的浅层进修和星期基因组

到目前为止为止,我们以前在从学术角度审核单个基本种概念。如果要来得详尽的论述,则没法忽略实质的应用。

对于实质应用来说一个不太好的审核根基是 Kaggle,它提供了关于原始数据生物学的资讯电子技术方法有论全面性的无论如何性。为了证明本文的表现形型式,所以寻找的比赛都是近期开始的,例如这个比赛:呼吸机心理压力先为报。使命是根据控制读取的时序先为报所制造肺内的心理压力时序。每个训练范例都可以被视为它自己的星期基因组,因此使使命已是一个多星期基因组问题。

这场比赛具有终究性,原因有 3 个:

竞争问题可以阐述为复出和分类使命。原始数据集可以进行时创造性的外观上二期工程。每个原始数据点由相异的基因组坚称,总和基本种概念是就让的。

所以对于本文的表现形型式段落,我们总结两件有趣的事情:

名列前 3 的团队以及许多其他团队在他们的之后解决方案当中数用到了一个基于 LSTM 的部件(例如区块型式 LSTMS、双向 LSTMS)。获胜团队用到了一个多层次的浅层方法论,其当中都有 LSTM 局域网和 Transformer 块等。该方法论如左图 7 标明:

左图7:top1解决方案方法论

该团队还实施了许多其他并能他们获胜的电子技术。但是这里重要的是:每种基本种概念都有其独特的优势和苦战,因此没法将自己仅限于单一基本种概念或单一方法有。

CNN的结局

期望这书评对 LSTM 的价值做出了不太好的论证。 但是众所周知Transformers 是机器进修的资讯电子技术的一个惊人跃升。 这种成功准确度将确定性地所致将时会来得高准确度的持续发展。

2020 年,Transformers 适应了近似值机听觉,诞生了 Vision Transformer (ViT)。 研究成果造成了了促使的详尽分析,之后这个经过额外重写的新基本种概念能够在许多缩放分类使命当中想得到 CNN。 来得好的是,详尽分析人员挖掘出将这两种成分建构上来时会造成了来得好的结果。 我们将在将时会看到来得多的 ViT。

期望这一次我们能避免“CNNs之死”之类的大胆且无知的过激,虽然现今并从未看到很多这样的输水标题党了,但是期望本文的段落可以让大家来得接近于主观,要有自己的判断力。

结束语

与此相反,本文详尽分析研讨了以下几点:

仍然不也许无论如何审核机器进修的资讯电子技术跃升的制约。Transformers 的经常出现塑造了格局:LSTM,尤其是在 NLP 当中,不必是关心的焦点。关于星期基因组,LSTM 来得有用。 他们还无法被替代(数现今一定会)。原始数据生物学是一门跨的资讯电子技术的学门,无需建构各种方法有/基本种概念来应对这些终究。

本文援引:

Alex et al. “ImageNet Classification with Deep Convolutional Neural Networks” (NIPS 2012)Hochreiter et al., “Long Short-term Memory” (Neural Computation, 1997)Rumelhart et al. Learning internal representations by error propagation (Sept. 1985)Kyunghyun et al. On the Properties of Neural Machine Translation: Encoder-Decoder ApproachesSutskever et al 2014, Sequence to Sequence Learning with Neural Networks (2014)Yonghui Wu et al. Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation (2016)A. Vaswani et al. Attention Is All You Need, Jun 2017Seyed Mehran Kazemi et al. Time2Vec: Learning a Vector Representation of Time**, July 2019Bryan Lim et al., Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting (International Journal of Forecasting December 2021)D. Salinas et al., DeepAR: Probabilistic forecasting with autoregressive recurrent networks, International Journal of Forecasting (2019).Andrej Karpathy, Li Fei-Fei, Deep Visual-Semantic Alignments for Generating Image DescriptionsLea et al. Temporal convolutional networks for action segmentation and detection (CVPR 2017)Bai et al., An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling (2018)Dosovitskiy et al., An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (2020)

写作者:Nikos Kafritsas

治白癜风医院那个好
忻州治白癜风医院哪好
佳木斯白癜风医院哪家好

上一篇: Piper Sandler:将社区金融(TCFC.US)目标价从44美元下调至46美元

下一篇: 总有一天你会爱上了画画,永远不要顾忌会不会太迟了,想做就马上去做,注定要去的地方,多晚都会有光

友情链接