手写大模型组件之Group Query Attention,从 MHA,MQA 到 GQA了解注意力机制变体,包括MHA(Multi-Head Attention)、MQA(Multi-Query Attention)和GQA(Group Query Attention)。通过手写代码实现,探讨三种注意力机制的异同,以及GQA在推理性能优化方面的优势。chaofa2024年12月8日大约 3 分钟hands-on-codetransformerLLM
LoRA 原理和 PyTorch 代码实现用 PyTorch 实现从零实现 LoRA, 理解 LoRA 的原理,主要是为了展示一个 LoRA 实现的细节chaofa2024年11月9日大约 4 分钟hands-on-codetransformerLLM
普通人从零开始做公开表达的增长策略国庆七天,开始在 B 站和 YouTube 做了一些教学视频,非常开心地涨粉 1.5k+,以下是我做的几个策略和思考:1. 视频大于文章;2. 利他优先;3. 拙劣的完成好过比完美的开始;4. 选取合适的平台;5. 内容互相链接...chaofa2024年10月15日大约 4 分钟杂谈自媒体公开表达
LLM 大模型训练-推理显存占用分析根据模型的参数大小,预估模型训练和推理过程中的显存占用情况,包括参数占用显存大小、优化器占用显存大小...KV Cache 和 中间激活值的计算方式chaofa2024年10月6日大约 6 分钟LLMtransformer
项目隔离,不同的项目使用不同的 Git 配置利用 Git 的 includeIf 配置,为不同的项目设置不同的配置,通过子文件夹 .gitconfig 覆盖 Git 的 Global 相关配置,比如 name,email 等。chaofa2024年8月30日大约 2 分钟git
手写 transformer decoder(CausalLM)手写一个 Causal Language Model,或者说简化版的 transformer 中的 decoder。chaofa2024年8月18日大约 3 分钟hands-on-codetransformerLLM
手写 Self-Attention 的四重境界,从 self-attention 到 multi-head self-attention在 AI 相关的面试中,经常会有面试官让写 self-attention,但是 transformer 这篇文章其实包含很多的细节,因此可能面试官对于 self-attention 实现到什么程度是有不同的预期。因此这里想通过写不同版本的 self-attention 实现来达到不同面试官的预期,四个不同的版本,对应不同的细节程度。chaofa2024年8月18日大约 7 分钟hands-on-codetransformerLLM