MobileSideBar

SEARCH

MENU

  • 打赏
  • 公式
  • 天象
  • 链接
  • 时光
  • 博览
  • 归档

CATEGORIES

  • 千奇百怪
  • 天文探索
  • 数学研究
  • 物理化学
  • 信息时代
  • 生物自然
  • 图片摄影
  • 问题百科
  • 生活/情感
  • 资源共享

NEWPOSTS

  • 基于流式幂迭代的Muon实现:5. 延伸
  • 基于流式幂迭代的Muon实现:4. 原理
  • 基于流式幂迭代的Muon实现:3. 雕琢
  • 中位数(Median)简介
  • 基于流式幂迭代的Muon实现:2. 加速
  • Attention Residua...
  • 基于流式幂迭代的Muon实现:1. 初识
  • MuP之上:3. 特殊情况特殊处理
  • MoE环游记:7、动态激活极简解
  • MoE环游记:6、最优分配促均衡

COMMENTS

  • 苏剑林: 关于网络该预测什么目标,这个后来确实有一些争议和讨论,实际上有...
  • 苏剑林: 我没试过,不过也就少一个自由度,猜测影响应该比较有限吧。
  • 苏剑林: 我没看明白你这里的推导,有时间我再翻翻你提到的论文,但是“Ad...
  • 苏剑林: 现在的我,似乎一看到“语义空间”这些词就有点血压飙升的感觉,脑...
  • 苏剑林: 常规内积到加权内积的转变,至少黎曼几何了(即便直角坐标到极坐标...
  • 苏剑林: 这一层的输出,就是下一层的输入,这个能理解吗?内还是外,仅仅是...
  • 苏剑林: attention学的是$q_t, k_{\leq t}, v...
  • YameChi: 苏神,我还有另一个问题请教您,对于公式(10)中,能否直接构造...
  • Oriend: 苏神好,请问一下如果进一步给V也加L2 norm会有什么影响吗...
  • EIFY: AdamW优化器的$\Vert\boldsymbol{u}_t...

USERLOGIN

  • 登录
科学空间|Scientific Spaces
  • 登录
  • 打赏
  • 公式
  • 天象
  • 链接
  • 时光
  • 博览
  • 归档
渴望成为一个小飞侠

  • 欢迎订阅

  • 个性邮箱

  • 天象信息

  • 观测ISS

  • LaTeX

  • 关于博主

欢迎访问“科学空间”,这里将与您共同探讨自然科学,回味人生百态;也期待大家的分享~

  • 千奇百怪Everything
  • 天文探索Astronomy
  • 数学研究Mathematics
  • 物理化学Phy-chem
  • 信息时代Big-Data
  • 生物自然Biology
  • 图片摄影Photograph
  • 问题百科Questions
  • 生活/情感Life-Feeling
  • 资源共享Resources
  • 千奇百怪
  • 天文探索
  • 数学研究
  • 物理化学
  • 信息时代
  • 生物自然
  • 图片摄影
  • 问题百科
  • 生活/情感
  • 资源共享

归档

2026年 (共7篇)

  • 04月17日: 基于流式幂迭代的Muon实现:5. 延伸 (0)
  • 04月13日: 基于流式幂迭代的Muon实现:4. 原理 (0)
  • 04月07日: 基于流式幂迭代的Muon实现:3. 雕琢 (2)
  • 03月26日: 基于流式幂迭代的Muon实现:2. 加速 (5)
  • 03月12日: 基于流式幂迭代的Muon实现:1. 初识 (14)
  • 02月15日: MuP之上:2. 线性层与最速下降 (2)
  • 01月20日: 为什么我们偏爱各向同性?基于最速下降的理解 (14)

2025年 (共14篇)

  • 11月19日: Muon优化器指南:快速上手与关键细节 (34)
  • 11月03日: 流形上的最速下降:5. 对偶梯度下降 (4)
  • 09月15日: 重新思考学习率与Batch Size(三):Muon (0)
  • 08月21日: 流形上的最速下降:4. Muon + 谱球面 (4)
  • 08月08日: 流形上的最速下降:3. Muon + Stiefel (5)
  • 08月06日: 流形上的最速下降:2. Muon + 正交 (2)
  • 07月12日: QK-Clip:让Muon在Scaleup之路上更进一步 (71)
  • 06月23日: 通过msign来计算奇异值裁剪mclip(下) (0)
  • 06月13日: msign的导数 (7)
  • 06月07日: 通过msign来计算奇异值裁剪mclip(上) (0)
  • 06月05日: msign算子的Newton-Schulz迭代(下) (7)
  • 05月11日: msign算子的Newton-Schulz迭代(上) (11)
  • 03月24日: 高阶MuP:更简明但更高明的谱条件缩放 (24)
  • 02月27日: Muon续集:为什么我们选择尝试Muon? (57)

2024年 (共1篇)

  • 12月10日: Muon优化器赏析:从向量到矩阵的本质跨越 (55)

科学空间

微信打赏

科学空间

支付宝打赏

因为网站后台对打赏并无记录,因此欢迎在打赏时候备注留言。
你还可以点击这里或在下方评论区留言来告知你的建议或需求。

你也许还对下面的内容感兴趣

  • 低秩近似之路(四):ID
  • 【致敬】费曼诞辰100年
  • 【语料】2500万中文三元组!
  • 今日七夕笑牵牛
  • 【备忘】访问Google的几个方式
  • 变分自编码器(一):原来是这么一回事
  • 费曼积分法(8):求高斯积分
  • 科学家计划研制造云船对抗全球变暖(图)
  • 我们打算飞到小行星上——但是,哪一颗好呢?
  • 纠缠的时空(二):洛仑兹变换的矩阵(续)
8695416

October 13th, 2018

写一篇BERT的?应该很多人都想弄明白…

回复评论
苏剑林 发表于 October 13th, 2018

BERT是什么?

回复评论
丁鹏 发表于 October 13th, 2018

BERT是谷歌最新发表的论文,横扫11项NLP任务记录,苏神赶紧解读一下。论文地址:https://arxiv.org/pdf/1810.04805.pdf

回复评论
苏剑林 发表于 October 13th, 2018

刚看到新闻,没觉得有什么好写的。就是原来是attention模型,层数加深,预训练做得更充分了...

就好比前几天的BigGAN,效果也很火爆,也没有什么好说的,基本是硬件堆起来的。

回复评论
coderaBruce

July 19th, 2025

苏神,你的订阅功能好像bug啦

回复评论
苏剑林 发表于 July 19th, 2025

怎么个bug法?我好像没测出来...

回复评论
gaoyiming 发表于 September 4th, 2025

点进去之后是一堆乱码。

回复评论
苏剑林 发表于 September 5th, 2025

你是指xml代码?那不是乱码,feed就是xml格式,你要自己找工具订阅。

回复评论
sk

December 30th, 2025

太棒了

回复评论
取消回复

1. 可以使用LaTeX代码,点击“预览效果”可查看效果;
2. 可以通过点击评论楼层编号来引用该楼层;
3. 网站可能会有点卡,如非确认评论失败,请不要重复点击提交。

关于站长

科学空间logo
苏剑林|BoJone,科学空间博主,【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者(但不专业)......目前33岁,还在单调递增。希望能一直在此分享科学之美~
你也许会关心:
  • 科学空间|Scientific Spaces 介绍
  • 科学空间QQ交流群:67729435
  • 科学空间微信交流群:spaces_ac_cn
  • 常见问题集:《科学空间FAQ》
  • 智能搜索

    支持整句搜索!网站自动使用结巴分词进行分词,并结合ngrams排序算法给出合理的搜索结果。

    热门标签

      生成模型 attention 优化 语言模型 模型 梯度 网站 概率 优化器 矩阵 转载 微分方程 分析 天象 深度学习 积分 python 几何 扩散 力学 无监督 节日 生活 文本生成 数论

    随机文章

    • 【中文分词系列】 4. 基于双向LSTM的seq2seq字标注
    • 德国女作家摘得2009诺贝尔文学奖
    • 低精度Attention可能存在有偏的舍入误差
    • 智能家居之小爱同学控制极米投影仪的简单方案
    • 《向量》系列——1.向心力公式证明
    • 能量视角下的GAN模型(二):GAN=“分析”+“采样”
    • 基于fine tune的图像分类(百度分狗竞赛)
    • 思考:两个椭圆片能粘合成一个立体吗?
    • 科学空间:2010年7月重要天象
    • 关于维度公式“n > 8.33 log N”的可用性分析

    最近评论

    • 苏剑林: 关于网络该预测什么目标,这个后来确实有一些争议和讨论,实际上有九种组合,可以参考:https:...
    • 苏剑林: 我没试过,不过也就少一个自由度,猜测影响应该比较有限吧。
    • 苏剑林: 我没看明白你这里的推导,有时间我再翻翻你提到的论文,但是“AdamW的最优学习率不会随着$\b...
    • 苏剑林: 现在的我,似乎一看到“语义空间”这些词就有点血压飙升的感觉,脑中出现一群老古董试图用自己的古董...
    • 苏剑林: 常规内积到加权内积的转变,至少黎曼几何了(即便直角坐标到极坐标,也可以说是黎曼几何的特例)。然...
    • 苏剑林: 这一层的输出,就是下一层的输入,这个能理解吗?内还是外,仅仅是取决于你的视角,attnres论...
    • 苏剑林: attention学的是$q_t, k_{\leq t}, v_{\leq t}$到$o_t$...
    • YameChi: 苏神,我还有另一个问题请教您,对于公式(10)中,能否直接构造一个网络,输入xt,输出为x0来...
    • Oriend: 苏神好,请问一下如果进一步给V也加L2 norm会有什么影响吗?V携带的信息量应该变少了,但是...
    • EIFY: AdamW优化器的$\Vert\boldsymbol{u}_t\Vert_{RMS}$取决于$...

    友情链接

    • Cool Papers
    • 数学研发
    • Seatop
    • Xiaoxia
    • 积分表-网络版
    • 丝路博傲
    • 数学之家
    • 有趣天文奇观
    • TwistedW
    • godweiyang
    • AI柠檬
    • 王登科-DK博客
    • ESON
    • 枫之羽
    • coding-zuo
    • 博科园
    • 孔皮皮的博客
    • 运鹏的博客
    • jiming.site
    • OmegaXYZ
    • EAI猩球
    • 文举的博客
    • 申请链接

    署名-非商业用途-保持一致 本站采用创作共用版权协议,要求署名、非商业用途和保持一致。转载本站内容必须也遵循“署名-非商业用途-保持一致”的创作共用协议。
    © 2009-2026 Scientific Spaces. All rights reserved. Theme by laogui. Powered by Typecho. 备案号: 粤ICP备09093259号-1/2。