当前位置：翡翠原石网 > 我们还需要Transformer中的注意力吗

我们还需要Transformer中的注意力吗

时间：2025-06-27 09:05:58 编辑：翡翠原石网访问：189

M1“超长记忆”吊打R1，minimax的好日子来了？，M1的这种成本优势会在实际应用中持续发挥作用。假设，当需要生成10万token时...除了利润点和Agent产品力之外，或许我们还可以关注下「产品的稳定性」。过去...

请记住minimaxM1：minimax用自己的方法追上R1们，直奔最强Agent模型而去，传统Transformer使用的Softmax注意力，需要为此构建一个N×N的全连接矩阵，...“在AIME的实验中，我们发现这比包括字节近期提出的DAPO等强化学习算法...

无损减少80%激活值内存，提升5倍训练序列长度，仅需两行代码，的梯度时需要储存相应的激活值对于模型中的任意函数变换的梯度由以下链式法则...与线性变换不同，由于Transformer层存在注意力机制，块输出并非仅由对应位置...

华为博士天团首次揭密！盘古NLP大模型三大关键发现，它将快思考和慢思考能力合到同一个模型中，我们只需要训一个模型，且不需要另外...我们内部正在研究和探索能够超越Transformer的架构，包括注意力机制方面的改进...

200亿AI独角兽反击，minimax首款推理模型赶超deepseek，强化学习训练仅用380万元，但由于Transformer架构中，注意力机制的计算量会随序列长度呈平方级增长，导致认为，M1将在未来的智能体应用中具有独特优势。“我们预见这种高效...

特拉维夫大学发现：越″万能″的AI攻击越善于″劫持″注意力，这种方法在优化攻击后缀时，不仅考虑如何让AI给出肯定回答，还专门强化注意力...攻击者不需要深度理解AI的复杂内部结构，只需要找到合适的"注意力劫持"方法就...

53万美金训练出顶级AI？揭秘minimax的「省钱」绝招，softmax注意力的Transformer模块。这种设计理论上可以将推理长度高效扩展到...此外，MiniMax还注意到，M1的混合注意力机制的设计还会RL扩展的稳定性带来...

田渊栋：连续思维链效率更高，可同时编码多个路径，“叠加态”式并行搜索，这个注意力选择器就好比我们开车时用的导航仪，能帮模型在一堆信息里精准找到...此外，团队还通过对注意力模式和连续思维表示的分析，进一步证实了模型中存在...

minimax-M1登场，minimax再次证明自己是一家模型驱动的AI公司，在将MoE和LightningAttention（闪电注意力）的激进架构变革引入基础模型...此外需要特意说明的是，M1系列模型中的两个模型中，MiniMax-M1-40K模型是...

AI时代，我们如何实现认识方式的跃迁？，于是，当我们试图获得荣誉、成功、幸福等美好的事物时，还未行动，我们却产生了...遗忘，也是注意力分配的艺术。生活中，我们有时会情绪低落，这可能是因为过去...

大模型热度退潮，真正的技术创新者开始被「看见」，“稀疏注意力”机制，以此来弥补Transformer架构的缺陷，但相关研究一直不...升级成为了“可训练”稀疏注意力架构，进一步提升在实际使用场景中的效率。...

西部研究|一周观点精粹（0617-0624），谷歌AI路线图承认现有Transformer注意力机制无法实现无限上下文，需要在核心...美军在对伊朗福尔道核设施的袭击中投下6枚钻地弹，还向伊朗其他核设施发射了30...

智能语音信息处理团队15篇论文被语音技术顶会Interspeech2025接收，此外，我们提出了一种基于交叉注意力的可解释性模型，该模型不仅能够识别这些...与此同时，我们还在每个Transformer层的多头注意力机制（MHSA）与前馈网络（...

迈向人工智能的认识论：如何推理对齐和改变他们的思维，自注意力机制作为推理：我们可以将LLM的前向传播理解为对输入数据执行一系列...本质上，即使在单次前向传递中，自注意力层也可以允许某种形式的双向思考：...

AI挥刀，斩向“唯名校论”，“注意力模型”，再到最终的“Transformer”（2017年）的完整演进路径，并精准...以及需要“人在回路”中对AI生成的维度进行校验等。但它所揭示的未来图景，正...