Skip to content

Commit

Permalink
Update 4.2-计算机体系结构与矩阵运算.md (#247)
Browse files Browse the repository at this point in the history
  • Loading branch information
haiker2011 authored Oct 25, 2024
1 parent 4d69ac2 commit 0a76b74
Showing 1 changed file with 2 additions and 2 deletions.
Original file line number Diff line number Diff line change
Expand Up @@ -13,7 +13,7 @@ CPU体系结构并不是针对计算密集型任务而设计的,其主要支

这样的结构针对通用的计算机程序有较高的灵活性,但是处理深度学习中的大部分运算时,性能和单位功耗的算力都相对较低。为了提升CPU的性能,新的CPU主要从以下几个方面提升性能:
* 在单核上增加指令并发执行能力:通过乱序执行互不依赖的指令,重叠不同指令的流水线,从而增加指令发射吞吐;
* 增加多核并发处理能力:通过多核并发执行增加并行处理能力,这需要依赖操作系统将应用程序调度到多核上,或者依赖用户的程序中显示使用多线程进行计算
* 增加多核并发处理能力:通过多核并发执行增加并行处理能力,这需要依赖操作系统将应用程序调度到多核上,或者依赖用户的程序中显式使用多线程进行计算
* 在单核上增加向量化处理能力:允许CPU在向量数据上执行相同的指令,也就是针对一条指令的取指和译码可以对多个数据同时执行,如图4-2-2所示,从而大大增加CPU的计算效率。向量化计算需要用户程序中显示使用向量化指令来实现。

<center> <img src="./img/4-2-2-vec.png" /></center>
Expand Down Expand Up @@ -135,4 +135,4 @@ for (int i = 0; i < M; i++) {

5. https://developer.nvidia.com/cublas

6. https://pytorch.org/docs/master/notes/extending.html
6. https://pytorch.org/docs/master/notes/extending.html

0 comments on commit 0a76b74

Please sign in to comment.