Go 的 testing 包通过 b.RunParallel 支持并发基准测试,需用 pb.Next() 分配任务以避免竞争;关键看 ns/op 和 B/op 随并发度变化趋势,配合 pprof 和 profile 识别锁争用、内存分配与 GC 瓶颈。
Go 的 testing 包原生支持并发基准测试,但“parallel benchmark”并非一个独立工具,而是指通过 b.RunParallel 方法在单个基准函数内启动多个 goroutine 并发执行,从而模拟多线程负载、评估并行扩展性与潜在瓶颈。关键不在于“多线程效率”的绝对数值,而在于观察 ns/op(每次操作耗时)和 total allocs 随并发度(b.N 和 goroutine 数量)变化的趋势。
必须在 b.RunParallel 内部调用 pb.Next 获取待处理任务,不能在外部预分配或共享计数器——否则会引入竞争或序列化瓶颈,测出的是锁开销而非真实性能。
var i int 并用 atomic.AddInt64(&i, 1) 计数 —— 这会强制所有 goroutine 争抢同一原子变量,严重失真pb.Next() 拉取独立任务索引,例如处理切片元素、生成随机输入、调用目标函数等"key-"+strconv.Itoa(i)),避免哈希冲突和写锁竞争运行 go test -bench=. -benchmem -cpu=1,2,4,8 后,重点对比不同 GOMAXPROCS 下的 ns/op 和 B/op:
ns/op 仅下降 30%~50%,说明存在共享资源争用(如 mutex、全局变量、sync.Pool 误用)或 false sharingB/op 显著上升,往往意味着每 goroutine 分配了本可复用的对象(如反复 new struct),或 sync.Pool 使用不当(Put/Get 不匹配、跨 goroutine 使用)gc pause 时间变长或 GC 次数增加,通常源于短生命周期对象爆炸式分配,需结合 -gcflags="-m" 查看逃逸分析基准测试本身不暴露内部阻塞,需导出 profile 数据进一步分析:
runtime.SetMutexProfileFraction(1) 和 runtime.SetBlockProfileRate(1) 在 func BenchmarkXxx(b *testing.B) 开头启用锁和阻塞采样go test -bench=BenchmarkXxx -cpuprofile=cpu.prof -memprofile=mem.prof -blockprofile=block.prof
go tool pprof cpu.prof 查看热点函数;用 go tool pprof -http=:8080 block.prof 查看 goroutine 阻塞在 mutex、channel receive 或 network I/O 的位置sync.(*Mutex).Lock、runtime.gopark、chan receive 等调用栈深度高的节点b.N 是整个基准循环的总迭代次数,b.RunParallel 的 func(*testing.PB) 会被多个 goroutine 并发执行,每个 goroutine 自行调用 pb.Next() 直到返回 false。因此:
b.N(不变),不是 goroutine 数 × 单次循环次数
e 数量由 -cpu 参数控制(如 -cpu=4 启动 4 个),但 b.RunParallel 内部默认使用 runtime.GOMAXPROCS(0) 的值,也可显式设置 runtime.GOMAXPROCS(n)
pb.Next() 对应的工作量足够大(例如处理 100 个元素)