Google Research เผยแพร่ TurboQuant เมื่อวันพุธที่ผ่านมา ซึ่งเป็นอัลกอริธึมการบีบอัดที่ย่อขนาดคอขวดจําการอนุมานที่สําคัญอย่างน้อย 6x ในขณะที่ยังคงสูญเสียความแม่นยําเป็นศูนย์
กระดาษถูกกําหนดไว้สําหรับการนําเสนอที่ ICLR 2026 และปฏิกิริยาออนไลน์ก็เกิดขึ้นทันที
Matthew Prince ซีอีโอของ Cloudflare เรียกมันว่าช่วงเวลา DeepSeek ของ Google ราคาหุ้นหน่วยความจํารวมถึงไมครอน Western Digital และ Seagate ลดลงในวันเดียวกัน
แล้วมันจริงหรือเปล่า
ประสิทธิภาพการหาปริมาณเป็นความสําเร็จที่ยิ่งใหญ่ด้วยตัวเอง แต่ “การสูญเสียความแม่นยําเป็นศูนย์” ต้องการบริบท
TurboQuant กําหนดเป้าหมายแคช KV ซึ่งเป็นชิ้นส่วนของหน่วยความจํา GPU ที่เก็บทุกสิ่งที่โมเดลภาษาต้องจดจําระหว่างการสนทนา
เมื่อหน้าต่างบริบท เติบโตไปสู่โทเค็นนับล้าน แคชเหล่านั้น บอลลูนเป็นหลายร้อยกิกะไบต์ต่อเซสชั่น นั่นคือคอขวดที่แท้จริง ไม่ใช่พลังงานคํานวณ แต่เป็นหน่วยความจําดิบ
วิธีการบีบอัดแบบดั้งเดิมพยายามที่จะหดตัวแคชเหล่านั้นโดยการปัดเศษตัวเลขลง – จาก 32 บิตลอยเป็น 16 เป็น 8 ถึง 4 บิต integers ตัวอย่างเช่น เพื่อให้เข้าใจได้ดีขึ้นให้นึกถึงการย่อขนาดภาพจาก 4K เป็น Full HD ถึง 720p และอื่น ๆ มันง่ายที่จะบอกว่ามันเป็นภาพเดียวกันโดยรวม แต่มีรายละเอียดเพิ่มเติมในความละเอียด 4K
การจับ: พวกเขาต้องเก็บ “ค่าคงที่เชิงปริมาณ” เพิ่มเติมควบคู่ไปกับข้อมูลที่บีบอัดเพื่อไม่ให้แบบจําลองโง่ ค่าคงที่เหล่านั้นบวก 1 ถึง 2 บิตต่อมูลค่า, กัดเซาะกําไรบางส่วน
Google กําหนดเส้นตายปี 2029 เพื่อจัดการกับภัยคุกคามควอนตัม – เป็นปัญหาสําหรับ Bitcoin หรือไม$1 $2
TurboQuant อ้างว่ามันกําจัดค่าใช้จ่ายนั้นทั้งหมด
มันทําสิ่งนี้ผ่านอัลกอริธึมย่อยสองเส้น PolarQuant แยกขนาดออกจากทิศทางในเวกเตอร์ และ QJL (Quantized Johnson-Lindenstrauss) ใช้ข้อผิดพลาดที่เหลือเพียงเล็กน้อยที่เหลือและลดเป็นบิตสัญญาณเดียว บวกหรือลบ โดยมีค่าคงที่ที่เก็บไว้เป็นศูนย์
ผลลัพธ์ที่ Google กล่าวว่าเป็นผู้ประมาณการที่เป็นกลางทางคณิตศาสตร์สําหรับการคํานวณความสนใจที่ขับเคลื่อนแบบจําลองหม้อแปลง
ในเกณฑ์มาตรฐานโดยใช้ Gemma และ Mistral TurboQuant จับคู่ประสิทธิภาพที่แม่นยําเต็มรูปแบบภายใต้การบีบอัด 4x รวมถึงความแม่นยําในการดึงข้อมูลที่สมบูรณ์แบบในงานแบบเข็มในถังบรรจุกระสุนสูงถึง 104,000 โทเค็น
สําหรับบริบทว่าทําไมเกณฑ์มาตรฐานเหล่านั้นจึงมีความสําคัญ expanding a model’s usable context without quality loss การขยายบริบทที่ใช้งานได้ของแบบจําลองโดยไม่สูญเสียคุณภาพเป็นหนึ่งในปัญหาที่ยากที่สุดในการปรับใช้ LLM

ตอนนี้พิมพ์ดี
“การสูญเสียความแม่นยําเป็นศูนย์” ใช้กับการบีบอัดแคช KV ในระหว่างการอนุมาน – ไม่ใช่น้ําหนักของแบบจําลอง การบีบอัดน้ําหนักเป็นปัญหาที่แตกต่างอย่างสิ้นเชิงและยากขึ้น TurboQuant ไม่แตะต้องสิ่งเหล่านั้น
สิ่งที่มันบีบอัดคือหน่วยความจําชั่วคราวที่เก็บการคํานวณความสนใจระหว่างเซสชัน ซึ่งให้อภัยมากกว่าเพราะข้อมูลนั้นสามารถสร้างใหม่ได้ในทางทฤษฎี
นอกจากนี้ยังมีช่องว่างระหว่างเกณฑ์มาตรฐานที่สะอาด และระบบการผลิตที่ตอบสนองคําขอหลายพันล้านรายการ TurboQuant ได้รับการทดสอบในรุ่นโอเพ่นซอร์ส – Gemma, Mistral, Llama – ไม่ใช่กอง Gemini ของ Google เองในระดับ
ซึ่งแตกต่างจากการเพิ่มประสิทธิภาพของ DeepSeek ซึ่งต้องใช้การตัดสินใจทางสถาปัตยกรรมที่ลึกซึ้งตั้งแต่เริ่มต้น TurboQuant ไม่จําเป็นต้องฝึกใหม่หรือปรับแต่งและอ้างสิทธิ์เหนือรันไทม์เล็กน้อย ในทางทฤษฎี มันหล่นลงไปใน ท่อการอนุมานที่มีอยู่
นั่นคือส่วนที่ทําให้ภาคฮาร์ดแวร์หน่วยความจําตกใจ – เพราะถ้ามันทํางานในการผลิตห้องปฏิบัติการ AI รายใหญ่ทุกแห่งจะพึ่งพา GPU เดียวกับที่พวกเขาเป็นเจ้าของอยู่แล้ว
กระดาษไปที่ ICLR 2026 จนกว่าจะถึงการผลิต พาดหัวข่าว “การสูญเสียเป็นศูนย์” จะอยู่ในห้องปฏิบัติการ







