郭耀华's Blog | 深度学习、机器学习领域技术博客

【AI】FlashAttention 详解：为什么它能让大模型注意力计算又快又省显存？

发表于 2026-04-28 更新于 2026-05-08 分类于 Artificial Intelligence 本文字数： 15k 阅读时长 ≈ 14 分钟

FlashAttention 是现代大模型训练与推理中最重要的底层优化之一。它并没有改变注意力机制的数学结果，也不是近似算法，却能显著降低显存占用、提升计算速度。本文从标准 Attention 的显存瓶颈讲起，用图解方式拆开 FlashAttention 的核心思想：IO-aware、分块计算、在线 Softmax、SRAM 复用、反向重算。看完这篇，你会真正明白它为什么快、为什么省、什么时候有效、什么时候不明显。

阅读全文 »

【AI】从 Transformer 到 LLM：一篇博文彻底讲清现代大模型的架构演化

发表于 2026-04-22 更新于 2026-04-23 分类于 Artificial Intelligence 本文字数： 12k 阅读时长 ≈ 11 分钟

2017 年 Google 一篇《Attention Is All You Need》开启了 Transformer 时代，2022 年 ChatGPT 把"大语言模型"推到了所有人面前。但很多人有个困惑：今天的 GPT-4、Llama、Qwen、DeepSeek 还是当年那个 Transformer 吗？答案是——骨架还在，但几乎每一块零件都被换过了。本文用快递公司、流水线、车间这些日常类比，从零开始把原始 Transformer 讲透，再逐个拆解现代 LLM 在它身上做了哪些关键改造，以及为什么。看完这一篇，你就能彻底分清"Transformer"和"LLM"。

阅读全文 »

【C#】交错数组 int[][] 与多维数组 int[,] 详解：从一个 CS0178 报错说起

发表于 2026-04-21 分类于 C# 本文字数： 4.2k 阅读时长 ≈ 4 分钟

很多 C# 开发者在写动态规划题时会习惯性写出 int[][] dp = new int[m+1][n+1]();，然后被编译器一句 CS0178: Invalid rank specifier 当头浇下。这个报错的根源不是手滑，而是混淆了 C# 中两种"二维数组"的本质：交错数组 int[][] 与多维数组 int[,]。本文从这个报错出发，把两者的语法、内存布局、性能、适用场景一次讲透。

阅读全文 »

【C#】IList 与 List 到底有什么区别？为什么接口和实现类不能混用？

发表于 2026-04-21 分类于 C# 本文字数： 4.7k 阅读时长 ≈ 4 分钟

很多 C# 开发者都有过灵魂拷问：明明 List<T> 就能搞定一切集合操作，为什么官方框架、开源库、接口规范都偏爱 IList<T>？为什么 List<List<int>> 不能赋给 IList<IList<int>>？本文从 .NET 设计规范、面向接口思想、泛型不变性规则、实战场景四个维度，把两者的本质区别与避坑指南一次性讲透。

阅读全文 »

【Python】元组解包的原子性：为什么一行交换代码永远不会乱？

发表于 2026-04-21 分类于 Python 本文字数： 2.9k 阅读时长 ≈ 3 分钟

在 Python 编程中，`a, b = b, a` 这种简洁的交换写法人人都用，但你是否想过：为什么它永远不会出现"值被中途覆盖"的问题？尤其在处理二叉树节点这种复杂对象时，它依然能稳定运行。本文将以"翻转二叉树"为例，彻底搞懂元组解包的原子性，以及它如何帮我们规避其他语言中常见的坑。

阅读全文 »

深度学习工作站攒机指南

发表于 2026-03-31 分类于 Deep Learning 本文字数： 13k 阅读时长 ≈ 12 分钟

引言

接触深度学习已经快两年了，之前一直使用Google Colab和Kaggle Kernel提供的免费GPU（Tesla K80）训练模型（最近Google将Colab的GPU升级为Tesla T4，计算速度又提升了一个档次），不过由于内地网络的原因，Google和Kaggle连接十分不稳定，经常断线重连，一直是很令人头痛的问题，而且二者均有很多限制，例如Google Colab一个脚本运行的最长时间为12h，Kaggle的为6h，数据集上传也存在问题，需要使用一些Trick才能达成目的，模型的保存、下载等都会耗费很多精力，总之体验不是很好，不过免费的羊毛让大家撸，肯定会有一些限制，也是可以理解的。

对于租用云服务器，之前也尝试过，租用了一家小平台的GPU服务器，也存在一些操作上的困难，不适合程序调试，而且价格也不便宜。

很早之前就想要搭建一个自己的深度学习工作站，不过机器成本的昂贵，一直阻碍着我攒机计划的进行。工欲善其事，必先利其器！最近终于下定决心，置办一个深度学习工作站主机。本文将我在这段时间选择、购置硬件的心得体会，分享给大家。

阅读全文 »

【AI】一文搞懂AI核心概念：Agent、Tool、MCP与Skill全解析

发表于 2026-03-13 分类于 Artificial Intelligence 本文字数： 7k 阅读时长 ≈ 6 分钟

随着大语言模型（LLM）的爆发式发展，AI 领域涌现了大量新概念：Agent、Tool、MCP、Skill、RAG、Function Calling……这些术语让很多人一头雾水。本文将用最通俗易懂的方式，为你逐一拆解这些概念，并进行详细对比，帮你彻底理清它们之间的关系。

阅读全文 »

【机器学习】深入理解决策树算法

发表于 2019-11-11 更新于 2026-03-31 分类于 Machine Learning 本文字数： 12k 阅读时长 ≈ 11 分钟

引言

决策树(Decision Tree)是机器学习中一种经典的分类与回归算法。本文主要讨论用于分类的决策树。决策树模型呈树形结构，在分类问题中，决策树模型可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性，分类速度快。决策树学习通常包括3个步骤：特征选择、决策树的生成和决策树的剪枝。

阅读全文 »

【机器学习】一文读懂分类算法常用评价指标

发表于 2019-09-01 更新于 2026-03-31 分类于 Machine Learning 本文字数： 5.7k 阅读时长 ≈ 5 分钟

前言

评价指标是针对将相同的数据，输入不同的算法模型，或者输入不同参数的同一种算法模型，而给出这个算法或者参数好坏的定量指标。

在模型评估过程中，往往需要使用多种不同的指标进行评估，在诸多的评价指标中，大部分指标只能片面的反应模型的一部分性能，如果不能合理的运用评估指标，不仅不能发现模型本身的问题，而且会得出错误的结论。

最近恰好在做文本分类的工作，所以把机器学习分类任务的评价指标又过了一遍。本文将详细介绍机器学习分类任务的常用评价指标：准确率（Accuracy）、精确率（Precision）、召回率（Recall）、P-R曲线（Precision-Recall Curve）、F1 Score、混淆矩阵（Confuse Matrix）、ROC、AUC。

阅读全文 »

Git常用操作指南

发表于 2019-07-21 更新于 2026-03-31 分类于 Git 本文字数： 28k 阅读时长 ≈ 26 分钟

前言

因为工作需求，最近又重新温习了一下Git操作，遂总结了一篇Git常用操作指南，方便日后学习查阅，本博客精简提炼了在开发过程中Git经常用到的核心命令，主要参考了《廖雪峰老师的Git教程》，希望对大家学习使用Git能带来帮助。

阅读全文 »