首页 > 极客资料 博客日记
手搓大模型Task01:LLama3模型讲解
2024-09-23 00:30:03极客资料围观18次
文章手搓大模型Task01:LLama3模型讲解分享给大家,欢迎收藏极客之家,专注分享技术知识
前言
主要进行Qwen模型架构进行讲解。
1.Qwen整体介绍
Qwen的整体架构与Llama2类似,如下图所示:
- tokenizer将文本转为词表里面的数值。
- 数值经过embedding得到一一对应的向量。
- attention_mask是用来看见左边、右边,双向等等来设定。
- 各类下游任务,Casual, seqcls等,基本都是基础模型model后面接对应的Linear层,还有损失函数不一样。
2.学习记录
在本次课程中,我深入学习了Transformer和Qwen2这两种先进的算法原理,并通过实践掌握了它们的代码实现流程。通过对相关源码的细致研读,我领悟到了Transformer中的位置编码(PE)与Qwen2中的相对位置编码(RoPE)之间的联系和它们各自独特的特点。这段学习经历极大地丰富了我的知识储备,并提升了我的技术理解力。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:jacktools123@163.com进行投诉反馈,一经查实,立即删除!
标签:
相关文章
最新发布
- Nuxt.js 应用中的 prerender:routes 事件钩子详解
- 【问题解决】Tomcat由低于8版本升级到高版本使用Tomcat自带连接池报错无法找到表空间的问题
- 【FAQ】HarmonyOS SDK 闭源开放能力 —Vision Kit
- 六、Spring Boot集成Spring Security之前后分离认证流程最佳方案
- 《JVM第7课》堆区
- .NET 8 高性能跨平台图像处理库 ImageSharp
- 还在为慢速数据传输苦恼?Linux 零拷贝技术来帮你!
- 刚毕业,去做边缘业务,还有救吗?
- 如何避免 HttpClient 丢失请求头:通过 HttpRequestMessage 解决并优化
- 让性能提升56%的Vue3.5响应式重构之“版本计数”