MobileSideBar

SEARCH

MENU

  • 打赏
  • 公式
  • 天象
  • 链接
  • 时光
  • 博览
  • 归档

CATEGORIES

  • 千奇百怪
  • 天文探索
  • 数学研究
  • 物理化学
  • 信息时代
  • 生物自然
  • 图片摄影
  • 问题百科
  • 生活/情感
  • 资源共享

NEWPOSTS

  • 滑动平均视角下的权重衰减和学习率
  • 生成扩散模型漫谈(三十一):预测数...
  • Muon优化器指南:快速上手与关键细节
  • AdamW的Weight RMS的...
  • n个正态随机数的最大值的渐近估计
  • 流形上的最速下降:5. 对偶梯度下降
  • 低精度Attention可能存在有...
  • MuP之上:1. 好模型的三个特征
  • 随机矩阵的谱范数的快速估计
  • DiVeQ:一种非常简洁的VQ训练方案

COMMENTS

  • Aikoin: 考古看到了这篇,太有意思了,原来RoPE的前身是这么来的
  • Iris_16: 了解了,感谢回答
  • 董振晨: 大佬您好,想和您交流下meanflow的推理效果
  • Zhancun: Get! 最近Vincent Sitzmann对video g...
  • 苏剑林: 我知道,但你pretrain不是已经反超了吗,所以算是正常了。...
  • Mornmirror: 实验3关闭了warmup,但还是很奇怪
  • Mornmirror: pretrain的实验是from scratch的
  • baolinzheng: 不好意思,写错了,是后向。
  • karma: 双向注意力在理论上可能不满秩(如所有行相同),但在实际模型中,...
  • zzh_felix: 非常感谢苏老师的精彩讲解!请问在递归生成的时候,\sigma_...

USERLOGIN

  • 登录
科学空间|Scientific Spaces
  • 登录
  • 打赏
  • 公式
  • 天象
  • 链接
  • 时光
  • 博览
  • 归档
渴望成为一个小飞侠

  • 欢迎订阅

  • 个性邮箱

  • 天象信息

  • 观测ISS

  • LaTeX

  • 关于博主

欢迎访问“科学空间”,这里将与您共同探讨自然科学,回味人生百态;也期待大家的分享~

  • 千奇百怪Everything
  • 天文探索Astronomy
  • 数学研究Mathematics
  • 物理化学Phy-chem
  • 信息时代Big-Data
  • 生物自然Biology
  • 图片摄影Photograph
  • 问题百科Questions
  • 生活/情感Life-Feeling
  • 资源共享Resources
  • 千奇百怪
  • 天文探索
  • 数学研究
  • 物理化学
  • 信息时代
  • 生物自然
  • 图片摄影
  • 问题百科
  • 生活/情感
  • 资源共享

归档

2025年 (共14篇)

  • 11月19日: Muon优化器指南:快速上手与关键细节 (18)
  • 11月03日: 流形上的最速下降:5. 对偶梯度下降 (4)
  • 09月15日: 重新思考学习率与Batch Size(三):Muon (0)
  • 08月21日: 流形上的最速下降:4. Muon + 谱球面 (4)
  • 08月08日: 流形上的最速下降:3. Muon + Stiefel (5)
  • 08月06日: 流形上的最速下降:2. Muon + 正交 (2)
  • 07月12日: QK-Clip:让Muon在Scaleup之路上更进一步 (60)
  • 06月23日: 通过msign来计算奇异值裁剪mclip(下) (0)
  • 06月13日: msign的导数 (7)
  • 06月07日: 通过msign来计算奇异值裁剪mclip(上) (0)
  • 06月05日: msign算子的Newton-Schulz迭代(下) (7)
  • 05月11日: msign算子的Newton-Schulz迭代(上) (9)
  • 03月24日: 高阶MuP:更简明但更高明的谱条件缩放 (18)
  • 02月27日: Muon续集:为什么我们选择尝试Muon? (55)

2024年 (共1篇)

  • 12月10日: Muon优化器赏析:从向量到矩阵的本质跨越 (55)

科学空间

微信打赏

科学空间

支付宝打赏

因为网站后台对打赏并无记录,因此欢迎在打赏时候备注留言。
你还可以点击这里或在下方评论区留言来告知你的建议或需求。

你也许还对下面的内容感兴趣

  • 幂等生成网络IGN:试图将判别和生成合二为一的GAN
  • Adam的epsilon如何影响学习率的Scaling Law?
  • 如何划分一个跟测试集更接近的验证集?
  • 《教材如何写》:我们需要怎样的数学教育?
  • GPLinker:基于GlobalPointer的事件联合抽取
  • 滑动平均视角下的权重衰减和学习率
  • f-GAN简介:GAN模型的生产车间
  • 太阳帆技术的粗浅分析(补充)
  • DiVeQ:一种非常简洁的VQ训练方案
  • 生成扩散模型漫谈(十五):构建ODE的一般步骤(中)
8695416

October 13th, 2018

写一篇BERT的?应该很多人都想弄明白…

回复评论
苏剑林 发表于 October 13th, 2018

BERT是什么?

回复评论
丁鹏 发表于 October 13th, 2018

BERT是谷歌最新发表的论文,横扫11项NLP任务记录,苏神赶紧解读一下。论文地址:https://arxiv.org/pdf/1810.04805.pdf

回复评论
苏剑林 发表于 October 13th, 2018

刚看到新闻,没觉得有什么好写的。就是原来是attention模型,层数加深,预训练做得更充分了...

就好比前几天的BigGAN,效果也很火爆,也没有什么好说的,基本是硬件堆起来的。

回复评论
coderaBruce

July 19th, 2025

苏神,你的订阅功能好像bug啦

回复评论
苏剑林 发表于 July 19th, 2025

怎么个bug法?我好像没测出来...

回复评论
gaoyiming 发表于 September 4th, 2025

点进去之后是一堆乱码。

回复评论
苏剑林 发表于 September 5th, 2025

你是指xml代码?那不是乱码,feed就是xml格式,你要自己找工具订阅。

回复评论
取消回复

1. 可以使用LaTeX代码,点击“预览效果”可查看效果;
2. 可以通过点击评论楼层编号来引用该楼层;
3. 网站可能会有点卡,如非确认评论失败,请不要重复点击提交。

关于站长

科学空间logo
苏剑林|BoJone,科学空间博主,【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者(但不专业)......目前32岁,还在单调递增。希望能一直在此分享科学之美~
你也许会关心:
  • 科学空间|Scientific Spaces 介绍
  • 科学空间QQ交流群:67729435
  • 科学空间微信交流群:spaces_ac_cn
  • 常见问题集:《科学空间FAQ》
  • 智能搜索

    支持整句搜索!网站自动使用结巴分词进行分词,并结合ngrams排序算法给出合理的搜索结果。

    热门标签

      生成模型 attention 优化 语言模型 模型 网站 梯度 概率 矩阵 转载 优化器 微分方程 分析 天象 深度学习 积分 python 扩散 力学 无监督 几何 节日 生活 文本生成 数论

    随机文章

    • 基于遗忘假设的平滑公式
    • 2012春节快乐!
    • Cool Papers浏览器扩展升级至v0.2.0
    • 抛物线内一根定长的弦
    • 奥赛版《春天里》
    • 我在Performer中发现了Transformer-VQ的踪迹
    • 【学习清单】最近比较重要的GAN进展论文
    • 概率视角下的线性模型:逻辑回归有解析解吗?
    • 收到新版《量子力学与路径积分》
    • 丘成桐摘得沃尔夫奖——获数学界终身成就肯定

    最近评论

    • Aikoin: 考古看到了这篇,太有意思了,原来RoPE的前身是这么来的
    • Iris_16: 了解了,感谢回答
    • 董振晨: 大佬您好,想和您交流下meanflow的推理效果
    • Zhancun: Get! 最近Vincent Sitzmann对video generation的分享(知乎上...
    • 苏剑林: 我知道,但你pretrain不是已经反超了吗,所以算是正常了。目前不正常的是sft,我猜是不是...
    • Mornmirror: 实验3关闭了warmup,但还是很奇怪
    • Mornmirror: pretrain的实验是from scratch的
    • baolinzheng: 不好意思,写错了,是后向。
    • karma: 双向注意力在理论上可能不满秩(如所有行相同),但在实际模型中,应该总是满秩的吧
    • zzh_felix: 非常感谢苏老师的精彩讲解!请问在递归生成的时候,\sigma_t是不是可以自己调整呢?

    友情链接

    • Cool Papers
    • 数学研发
    • Seatop
    • Xiaoxia
    • 积分表-网络版
    • 丝路博傲
    • 数学之家
    • 有趣天文奇观
    • TwistedW
    • godweiyang
    • AI柠檬
    • 王登科-DK博客
    • ESON
    • 枫之羽
    • Mathor's blog
    • coding-zuo
    • 博科园
    • 孔皮皮的博客
    • 运鹏的博客
    • jiming.site
    • OmegaXYZ
    • EAI猩球
    • 文举的博客
    • 申请链接

    署名-非商业用途-保持一致 本站采用创作共用版权协议,要求署名、非商业用途和保持一致。转载本站内容必须也遵循“署名-非商业用途-保持一致”的创作共用协议。
    © 2009-2025 Scientific Spaces. All rights reserved. Theme by laogui. Powered by Typecho. 备案号: 粤ICP备09093259号-1/2。