Open links in new tab
  1. 如何从浅入深理解 Transformer? - 知乎

    Transformer升级之路:1、Sinusoidal位置编码追根溯源 Transformer升级之路:2、博采众长的旋转式位置编码 猛猿:Transformer学习笔记一:Positional Encoding(位置编码) 解密旋转位置编码 解密 …

  2. 为什么Transformer要用LayerNorm? - 知乎

    Transformer中的归一化 (三):特征归一化在深度神经网络的作用 Transformer中的归一化 (四):BatchNormalization的原理、作用和实现 Transformer中的归一化 (五):Layer Norm的原理和实现 …

  3. MoE (Mixture-of-Experts)大模型架构的优势是什么?为什么?

    MoE大模型具备哪些优势? MoE的最大优势就是与Dense模型相比,在相同计算资源下,训练速度更快,而且可以训练更大的模型。 比如Google的Switch Transformer,模型大小是T5-XXL的15倍,在相 …

  4. Transformer统治的时代,LSTM模型并没有被代替,LSTM比Tranformer …

    大家说的Transformer效果好,大多数时候指的使用是预训练的Transformer,也就是BERT、XLNET这些预训练模型。 单独用随机参数初始化的Transformer,除了Seq2Seq类模型(生成、翻译),其他领 …

  5. VAE、GAN 这种生成模型和 transformer 有什么区别? - 知乎

    想问问为什么在分子生成中大部分选择使用VAE、GAN这种生成模型,而不使用transformer进行生成,这两种直…

  6. Small signal transformer | Electronics Forum (Circuits, Projects and ...

    Feb 9, 2025 · Simulation What is the inductance of the transformer? on which pins? It looks like the self resonant frequency is below the signal frequency.

  7. 第 6 章 互感耦合电路 - 知乎

    下面 研究全耦合变压器(perfect coupled transformer)的电压和电流的关系。 图 5-11(a)所示电路是全耦合变压器电路,其 KVL 方程为

  8. Transformer Spec | Electronics Forum (Circuits, Projects and ...

    Dec 14, 2024 · The transformer on the oven control stove board identified as: LS-A12119-PT E154515 Z150H CLASS B (130 C) LEI-4 0704 Input voltage (1,4) = 110-120 Vac Output voltages (5,8)= 16 …

  9. 循环神经网络详解(RNN/LSTM/GRU)

    包括谷歌的PaLM-2、Meta 的 LLaMA、清华的 GLM、百度的文心一言,其大模型都是使用了 Transformer结构。 但其实并不是所有的场景都适合 Transformer,比如强化学习中用的最多的还是 …

  10. 有了Transformer框架后是不是RNN完全可以废弃了? - 知乎

    Transformer能击败RNN的原因无非就是并行度高,能够更好的scaling up。 整个领域对RNN的并行能力有着极大的误解。 其实我觉得很大程度上要归咎于ElMo训练的时间太早了,并且采用了传统的并行 …