Groq LPU (Inference Engine)

Groq · LPU (Tensor Streaming)

Shipping (limited) inferencegroqalternativeinnovativehigh-throughput

Memory

TBD (SRAM-based)

FP8 TFLOPS

1500

Power

300W

Released

Feb 1, 2024

Technical Specifications

Limited — extreme inference throughput (tokens/sec) for LLMs. Deployed at GroqCloud for fast inference API.