1. 一个SSE寄存器可容纳____个短整型数。 A 2 B 4 C 8 D 16 我的答案:C 2. 采用划分子矩阵技术优化矩阵乘法 CUDA程序,子矩阵数组变量声明应加___前缀。 A __global__ B __device___ C __shared__ D __private__ 我的答案:C 3. 起泡排序改为奇偶转置排序,消除了循环步间的数据依赖的原因是____。 A 增大了元素比较距离 B 减小了元素比较距离 C 改为元素两两分组比较 D 消除了元素比较 我的答案:C 4. 求解同一个问题的 4 个并行算法的等效率函数分析结果如下,其中____的可扩展性最优。 A Θ (plogp) B Θ (p^2) C Θ (p^2logp) D Θ (p^3) 我的答案:A 5. 为防止编译器不支持 OpenMP,应使用____实现 OpenMP代码和普通代码的条件编译。 南 开 21秋 -并 行 程 序 设 计 答 案 --第 1页南 开 21秋 -并 行 程 序 设 计 答 案 --第 1页我的答案:C 6. 利用cache line一次读取多个数据字的机制优化程序访存性能,其机理是____。 A 降低了访存延迟 B 隐藏了访存延迟 C 利用了 cache 空间局部性 D 利用了 cache 时间局部性 我的答案:C 7. 有大量分支指令的程序不适合下面哪种体系结构上进行并行化? A SISD B SIMD C SPMD D MIMD 我的答案:B 8. CPU cache 大小为 32KB,如希望(单精度浮点数)矩阵乘法计算过程中所有数据都驻留 cache 中,则矩阵大小最大为 A 16*16 B 32*32 C 64*64 D 128*128 我的答案:C 9. pthread_join的第二个参数的作用是____。 A 设置指定线程属性 B 获取指定线程属性 C 向指定线程传递参数 D 获取指定线程函数返回结果 南 开 21秋 -并 行 程 序 设 计 答 案 --第 2页南 开 21秋 -并 行 程 序 设 计 答 案 --第 2页我的答案:D 10. 在分布式内存架构编程中,进程间不能____。 A 进行通信 B 进行同步 C 发送和接收消息 D 通过读写变量交换数据 我的答案:D 11. 关于 OpenMP循环并行程序的编写,下列说法中正确的是____。 A 程序员需要编写线程创建和管理代码 B 程序员需要编写循环划分代码 C 程序员需要编写调度策略代码 D 程序员只需指出对哪个循环进行并行,循环划分和调度策略是什么 我的答案:D 12. 在SSE intrinsics程序中双精度浮点数数据类型是____。 A __m128 B __m128f C __m128d D __m128i 我的答案:C 13. 在使用条件...