SnippetHelloGRB Seems Slow

So after finally getting the GPU Cuda version to run... it seems to be slower?

SnippetHelloGRB, even modified to have the same number of stacks, seems much slower than SnippetHelloWorld?

Has anyone else seen this - very strange?