RSS Towards Data Science - Medium フォロー エージェント型RAGのためのGPU常駐トップK:検索ステップがGPUから跳ね返るのをやめさせるためにCUDAカーネルを構築しました PCIe転送レイテンシが、エージェント推論を静かにボトルネックにしています。ここでは、カスタムデバイス常駐ベクトル検索カーネルを構築することでCPUをバイパスし、決定論的なマイクロ秒単位のテールレイテンシを解除する方法を示します。 GPU-Resident Top-K for Agentic RAG: I Built a CUDA Kernel So My Retrieval Step Would Stop Bouncing Off the GPU towardsdatascience.com AI and ML News on Bluesky @ai-news.at.thenote.app bsky.app