您的位置: 专家智库 > >

张秀霞

作品数:8 被引量:10H指数:1
供职机构:中国科学院计算技术研究所更多>>
发文基金:国家自然科学基金国家重点基础研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 5篇专利
  • 2篇会议论文
  • 1篇期刊文章

领域

  • 4篇自动化与计算...

主题

  • 4篇基准测试程序
  • 4篇测试程序
  • 3篇寄存器
  • 2篇调度
  • 2篇体系结构
  • 2篇通量
  • 2篇微架构
  • 2篇微体系结构
  • 2篇线程
  • 2篇线程调度
  • 2篇矩阵
  • 2篇控制码
  • 2篇汇编器
  • 2篇架构
  • 2篇浮点
  • 2篇编译器
  • 2篇操作数
  • 1篇单精度
  • 1篇迭代
  • 1篇迭代算法

机构

  • 8篇中国科学院
  • 1篇中国科学院大...

作者

  • 8篇张秀霞
  • 8篇谭光明
  • 3篇李佳佳
  • 3篇陈明宇
  • 2篇王朝尉

传媒

  • 1篇计算机研究与...

年份

  • 2篇2019
  • 3篇2017
  • 1篇2014
  • 2篇2011
8 条 记 录,以下是 1-8
排序方式:
一种逆向解析GPU指令的方法及系统
本发明提出一种逆向解析GPU指令的方法及系统,涉及GPU微体系结构、编译器代码生成技术和程序优化技术领域,该方法包括将所述GPU指令进行编译,生成编译文件,将所述编译文件进行反汇编,生成反汇编文件,通过汇编解析器将所述反...
谭光明张秀霞
文献传递
选择稀疏矩阵乘法最优存储格式的研究被引量:10
2014年
稀疏矩阵向量乘法(sparse matrix vector multiplication,SpMV)是科学和工程领域中重要的核心子程序之一,也是稀疏基本线性代数子程序(basic linear algebra subprograms,BLAS)库的重要函数.目前很多SpMV的优化工作在不同程度上获得了性能提升,但大多数优化工作针对特定存储格式或一类具有特定特征的稀疏矩阵缺乏通用性,因此高性能的SpMV实现并没有广泛地应用于实际应用和数值解法器中.另外,稀疏矩阵具有众多存储格式,不同存储格式的SpMV存在较大性能差异.根据以上现象,提出一个SpMV的自动调优器(SpMV auto-tuner,SMAT).对于一个给定的稀疏矩阵,SMAT结合矩阵特征选择并返回其最优的存储格式,应用程序通过调用SMAT来得到合适的存储格式,从而获得性能提升,同时随着SMAT中存储格式的扩展,更多的SpMV优化工作可以将性能优势在实际应用中发挥作用.使用佛罗里达大学的2 366个稀疏矩阵作为测试集,在Intel上SMAT分别获得9.11GFLOPS(单精度)和2.44GFLOPS(双精度)的最高浮点性能,在AMD平台上获得了3.36GFLOPS(单精度)和1.52GFLOPS(双精度)的最高浮点性能.相比Intel的核心数学函数库(math kernel library,MKL)数学库,SMAT平均获得1.4~1.5倍的性能提升.
李佳佳张秀霞谭光明陈明宇
GPU FFMA指令在双发射模式下的通量测试方法
本涉及一种GPU FFMA指令在双发射模式下的通量测试方法和系统,其中该测试方法包括对GPU指令的延迟和通量进行测试,获得该GPU指令的延迟周期和GPU指令通量;根据判断寄存器间是否存在bank冲突,选取无bank冲突的...
张秀霞谭光明王朝尉
文献传递
一种逆向解析GPU指令的方法及系统
本发明提出一种逆向解析GPU指令的方法及系统,涉及GPU微体系结构、编译器代码生成技术和程序优化技术领域,该方法包括将所述GPU指令进行编译,生成编译文件,将所述编译文件进行反汇编,生成反汇编文件,通过汇编解析器将所述反...
谭光明张秀霞
文献传递
稀疏矩阵向量乘的访存分析和优化
稀疏矩阵向量乘(SpMV)是科学计算中最重要的核心算法之一。理论分析和实际测试结果都表明,SpMV属于访存密集型应用。由于目前主流编译器尚不能充分利用现代处理器的访存特性,SpMV对带宽利用率仅为10%。本文通过探索现代...
张秀霞陈明宇李佳佳谭光明
关键词:稀疏矩阵向量乘流水线处理器
基于NVIDIA Kepler GPU汇编指令的单精度矩阵乘优化方法与系统
本发明涉及单精度矩阵乘优化方法,该方法基于NVIDIA Kepler GPU汇编指令,包括:根据A矩阵分块的列长度bm和B矩阵分块的行长度bn对原始矩阵进行分块,每个block处理<bm,bn>维度的输出矩阵...
谭光明张秀霞周可人王朝尉
文献传递
代数多重网格在GPU上的优化研究
近年来,随着GPU更多地用于科学计算,在高性能计算领域起着越来越重要的作用。NVIDIA第三代Fermi架构的开发,大大提升了GPU的双精度浮点运算能力。代数多重网格(AMG)作为高性能计算领域中的重要迭代算法,利用GP...
李佳佳张秀霞谭光明陈明宇
关键词:迭代算法图形处理单元
GPU FFMA指令在双发射模式下的通量测试方法
本涉及一种GPU FFMA指令在双发射模式下的通量测试方法和系统,其中该测试方法包括对GPU指令的延迟和通量进行测试,获得该GPU指令的延迟周期和GPU指令通量;根据判断寄存器间是否存在bank冲突,选取无bank冲突的...
张秀霞谭光明王朝尉
共1页<1>
聚类工具0