首页 > 极客资料博客日记

手搓大模型Task01：LLama3模型讲解

2024-09-23 00:30:03极客资料围观18次

文章手搓大模型Task01：LLama3模型讲解分享给大家，欢迎收藏极客之家，专注分享技术知识

前言

主要进行Qwen模型架构进行讲解。

1.Qwen整体介绍

Qwen的整体架构与Llama2类似，如下图所示：

tokenizer将文本转为词表里面的数值。
数值经过embedding得到一一对应的向量。
attention_mask是用来看见左边、右边，双向等等来设定。
各类下游任务，Casual, seqcls等，基本都是基础模型model后面接对应的Linear层，还有损失函数不一样。

2.学习记录

在本次课程中，我深入学习了Transformer和Qwen2这两种先进的算法原理，并通过实践掌握了它们的代码实现流程。通过对相关源码的细致研读，我领悟到了Transformer中的位置编码（PE）与Qwen2中的相对位置编码（RoPE）之间的联系和它们各自独特的特点。这段学习经历极大地丰富了我的知识储备，并提升了我的技术理解力。

标签：

上一篇：程序员职业发展之路思考：工程师的等级阶梯
下一篇：C#/.NET/.NET Core技术前沿周刊 | 第 6 期（2024年9.16-9.22）

首页 > 极客资料博客日记

手搓大模型Task01：LLama3模型讲解

前言

1.Qwen整体介绍

2.学习记录

相关文章

最新发布

点击排行

本站推荐

标签云

首页 > 极客资料 博客日记

手搓大模型Task01：LLama3模型讲解

前言

1.Qwen整体介绍

2.学习记录

相关文章

最新发布

点击排行

本站推荐

标签云

首页 > 极客资料博客日记