训练_搜你所想

AI大模型探索之路-训练篇18：大语言模型预训练-微调技术之Prompt Tuning

系列篇章💥 AI大模型探索之路-训练篇1：大语言模型微调基础认知 AI大模型探索之路-训练篇2：大语言模型预训练基础认知 AI大模型探索之路-训练篇3：大语言模型全景解读 AI大模型探索之路-训练篇4：大语言模型训练数据集概览 AI大模型探索之路-训练篇5：大语言模型预训练数据准备-词元化 AI大模型探索之路-训练篇6：大语言模型预训练数据准备-预处理 AI大模型探索之路-训练篇7：大语言模型Tra...

(view)

一次pytorch分布式训练精度调试过程

现象: loss不下降过程如下: 1.减少层数，准备最小复现环境 2.dropout设置为0，重复运行二次，对比loss是否一致 3.第二次迭代开始loss不一致 4.对比backward之后的梯度,发现某一个梯度不一致 5.dump得到所有算子的规模，单算子测试功能正常 6.怀疑是内存越界导致 7.排除通信库的问题，逐算子bypass 8.dump reduce_scatter的输入，发现每次都...

(view)

政安晨：【Keras机器学习示例演绎】（四十二）—— 使用 KerasNLP 和 tf.distribute 进行数据并行训练

目录简介导入基本批量大小和学习率计算按比例分配的批量大小和学习率本文目标：使用 KerasNLP 和 tf.distribute 进行数据并行训练。简介分布式训练是一种在多台设备或机器上同时训练深度学习模型的技术。它有助于缩短训练时间，并允许使用更多数据训练更大的模型。KerasNLP 是一个为自然语言处理任务（包括分布式训练）提供工具和实用程序的库。在本文中，我们将使用 KerasN...

(view)

代码随想录算法训练营第二十五天 | 669. 修剪二叉搜索树、108.将有序数组转换为二叉搜索树、538.把二叉搜索树转换为累加树

669. 修剪二叉搜索树解题思路在上一题的删除二叉树节点中，我们通过在这一层的返回值，让上一层接住，也就是上一层对应的孩子接住这层的返回值，达到删除节点的目的（C++要手动清理内存）。在这题有一些注意事项如下：我们需要判断，如果当前删除节点的值小于左边界，但要去右遍历，是可能符合区间的，同样的大于右边界，要去左遍历 class Solution {public: TreeNode* tr...

(view)

代码随想录算法训练营第十四天 | 二叉树基础知识、递归遍历、迭代遍历、统一迭代

基础知识递归遍历解题思路 1.确定要传入的参数和返回值 2.注意终止条件 3.确定单层递归的逻辑中序和后序按照中左右，左右中的顺序即可 class Solution {public: vector<int> preorderTraversal(TreeNode* root) { vector<int> result; traverSal(root,result); return result...

(view)

融合Transformer与CNN，实现各任务性能巅峰，可训练参数减少80%

论文er看过来，今天给各位推荐一个热门创新方向：CNN+Transformer。众所周知，CNN通过多层卷积自动学习空间层级特征，能够有效提取图像局部特征。而Transformer通过自注意力机制全局建模，能够有效处理长距离依赖关系。通过结合这两者的优势，我们不仅可以在保持运算效率的同时，提高模型在多种计算机视觉任务中的性能，还能实现较好的延迟和精度之间的权衡。目前，这种策略通过多种方式融合两种...

(view)

代码训练LeetCode(17)存在重复元素

代码训练(17)LeetCode之存在重复元素 Author: Once Day Date: 2024年5月7日漫漫长路，才刚刚开始… 全系列文章可参考专栏: 十年代码训练_Once-Day的博客-CSDN博客参考文章: 219. 存在重复元素 II - 力扣（LeetCode）力扣 (LeetCode) 全球极客挚爱的技术成长平台文章目录代码训练(17)LeetCode之存在重复元素1. ...

(view)

AI大模型探索之路-训练篇17：大语言模型预训练-微调技术之QLoRA

系列篇章💥 AI大模型探索之路-训练篇1：大语言模型微调基础认知 AI大模型探索之路-训练篇2：大语言模型预训练基础认知 AI大模型探索之路-训练篇3：大语言模型全景解读 AI大模型探索之路-训练篇4：大语言模型训练数据集概览 AI大模型探索之路-训练篇5：大语言模型预训练数据准备-词元化 AI大模型探索之路-训练篇6：大语言模型预训练数据准备-预处理 AI大模型探索之路-训练篇7：大语言模型Tra...

(view)

MLP手写数字识别(2)-模型构建、训练与识别(tensorflow)

'))model.add(Dense(units=10,kernel_initializer='normal',activation='softmax'))model.summary() 3.模型训练 3.1 调用model.compile()函数对训练模型进行设置 model.compile(optimizer='adam', loss='categorical_crossentropy', m...

(view)

AI大模型探索之路-训练篇11：大语言模型Transformer库-Model组件实践

系列篇章💥 AI大模型探索之路-训练篇1：大语言模型微调基础认知 AI大模型探索之路-训练篇2：大语言模型预训练基础认知 AI大模型探索之路-训练篇3：大语言模型全景解读 AI大模型探索之路-训练篇4：大语言模型训练数据集概览 AI大模型探索之路-训练篇5：大语言模型预训练数据准备-词元化 AI大模型探索之路-训练篇6：大语言模型预训练数据准备-预处理 AI大模型探索之路-训练篇7：大语言模型Tra...

(view)