เช้านี้ Anthropic แซงหน้า OpenAI อย่างเป็นทางการ โดยประกาศมูลค่าบริษัทใหม่และเปิดตัว Claude Opus 4.8 เวอร์ชันล่าสุดของผลิตภัณฑ์เรือธง ซึ่งมีข่าวลือมาสองวันแล้ว เราได้ทดลองใช้งานทันทีและรวบรวมความคิดเห็นเบื้องต้นจากชุมชนผู้ใช้ ข้อสรุปคือ มันมีความสามารถมากขึ้น แต่ "บุคลิก" ของมันกลับใช้งานยากขึ้น การทดสอบของ APPSO: สมองได้รับการอัพเกรด แต่ปากหายไป เราไม่ได้ใช้สถานการณ์การทดสอบมาตรฐานที่ Anthropic เตรียมไว้ แต่ทดสอบด้วยความต้องการในโลกแห่งความเป็นจริงของเราเอง: การดึงและจัดเก็บบันทึกการสนทนาในอดีตทั้งหมดจากแพลตฟอร์มการทำงานร่วมกันออนไลน์ ปริมาณข้อมูลมีมากกว่า 30MB กระจัดกระจายอยู่ทั่วอินเทอร์เฟซส่วนหน้า โดยไม่มีปุ่มส่งออกที่ใช้งานง่าย งานประเภทนี้ไม่ได้ทดสอบว่าโมเดลสามารถเขียนโค้ดได้หรือไม่ แต่เป็นการทดสอบว่ามันสามารถทำงานร่วมกับนักพัฒนาที่ไม่ใช่มืออาชีพเพื่อคิดหาวิธีและทำงานให้เสร็จสมบูรณ์ตั้งแต่ต้นได้หรือไม่ จุดเริ่มต้นมาจากการค้นพบโดยบังเอิญ เพื่อนร่วมงานฝ่ายทดสอบของเราสังเกตเห็นว่า ส่วนติดต่อผู้ใช้ของแพลตฟอร์มจะแสดงข้อมูลเก่าๆ แวบขึ้นมาเป็นบางช่วงเวลา ราวกับว่ามีการโหลดข้อมูลไปยังฝั่งไคลเอนต์ชั่วครู่แล้วก็ดึงกลับไป เขาได้แจ้งข้อสังเกตนี้ไปยังเวอร์ชัน 4.8 โดยไม่ได้ให้คำอธิบายทางเทคนิคใดๆ เพียงแค่กล่าวอย่างตรงไปตรงมาว่า "ผมเห็นข้อความเก่าๆ บางข้อความแวบขึ้นมาแล้วก็หายไป"
4.8 ผมเข้าใจความหมายของเขาและให้คำตัดสินที่ถูกต้อง: ข้อมูลถูกโหลดผ่านคำขออินเทอร์เฟซและสามารถดักจับได้ที่เลเยอร์เครือข่ายของเบราว์เซอร์ จากนั้นผมได้จัดทำแผนปฏิบัติการโดยแนะนำขั้นตอนต่างๆ ได้แก่ เครื่องมือสำหรับนักพัฒนา แผงเครือข่าย การกรองคำหลัก และการค้นหาคำขอเป้าหมาย คำตัดสินนั้นแม่นยำและความคิดก็ชัดเจน แต่ความขัดแย้งในข้อ 4.8 คือ ความสามารถในการคิดนั้นแข็งแกร่ง แต่การแสดงออกนั้น...ยุ่งยาก วิธีแก้ปัญหาทางเทคนิคทุกอย่างถูกต้อง แต่คำอธิบายในแต่ละขั้นตอนต้องใช้สองหรือสามประโยค คุณถามเกี่ยวกับวิธีการหนึ่ง และมันก็ให้คำตอบแรกว่า "แน่นอน! มาดูทีละขั้นตอนกัน" จากนั้นก็ดึงรายการแบบหัวข้อออกมา แล้วก็เพิ่ม "คำอธิบายเพิ่มเติม" ในตอนท้ายของรายการเพื่ออธิบายว่าทำไมจึงต้องทำแบบนี้ สิ่งที่สามารถอธิบายได้ในสามประโยคกลับต้องใช้ข้อความถึงสามหน้าจอ ผมแค่ไม่รู้ว่าจะเขียนโค้ดอย่างไร ไม่ใช่ว่าสมองผมทำงานผิดปกติ
นี่ไม่ใช่ปัญหาใหม่ในเวอร์ชัน 4.8 แต่เป็นปัญหาที่มีมานานแล้วในซีรี่ส์ Opus ตั้งแต่เวอร์ชัน 4.7 แม้จะมีการวิจารณ์ซ้ำแล้วซ้ำเล่า แต่เวอร์ชันนี้ก็ยังไม่ดีขึ้นและอาจแย่ลงด้วยซ้ำ ส่วนที่ใช้เวลานานที่สุดคือขั้นตอนการแก้ไขข้อผิดพลาด: หลังจากวิธีแก้ปัญหาแรก ผู้ใช้พบข้อผิดพลาด เวอร์ชัน 4.8 ระบุปัญหาได้อย่างแม่นยำ ให้วิธีแก้ปัญหาใหม่ และไม่ทำซ้ำขั้นตอนที่ล้มเหลว นี่ดีกว่าเวอร์ชัน 4.6 อย่างแน่นอน ซึ่งบางครั้งข้อผิดพลาดจะลืมสิ่งที่ได้ลองทำไปแล้วในระหว่างการแก้ไขข้อผิดพลาดหลายรอบ การยอมรับความผิดพลาดเป็นสิ่งที่ดี แต่ไม่จำเป็นต้องเข้มงวดเกินไป การเพิ่มการวิเคราะห์สาเหตุและรายการแบบหัวข้อทำให้ดูเหมือนอีเมลบริการลูกค้า ทั้งๆ ที่ควรจะเป็นการตรวจสอบปัญหาทางเทคนิค
ในที่สุด ข้อมูลก็ถูกส่งออกในรูปแบบ HAR อย่างสมบูรณ์ และการทำความสะอาดและจัดเรียงข้อมูลโดยใช้สคริปต์แบบกำหนดเองก็เสร็จสมบูรณ์อย่างราบรื่น ผู้ใช้บางรายยังไม่ได้รับการอัปเดต Claude Code แต่ Claude สำหรับ Chrome อยู่ในเวอร์ชัน 4.8 แล้ว และได้มีการเปิดใช้งานในเครื่องมือสำนักงานหลักๆ เช่น Notion แล้ว เราได้ทดสอบการใช้ Claude เพื่อทำงานพื้นฐาน เช่น การค้นหาและการกรอกแบบฟอร์มใน Chrome

一个能干活但不会聊天的同事如果只看结果,4.8 确实更强了,它理解非标准需求的能力更好,多步骤任务的上下文保持更稳,纠错不绕弯路。但如果看过程,体验却是拧巴的。它的问题不在于不会思考,准确地说,是它说话的方式像一个永远在做汇报的人:事事要分点,点点要展开,展开完还要总结,总结完再问你「还有什么我可以帮到你的?」。包括那些经典 AI 味开场白,「这是一个很棒的问题!」「当然可以!」,在前代模型上就已经让人烦躁,到 4.8 依然健在。这与其说是「缺点」,不如说是一种设计选择。Opus 4.8 的工程能力拉满了,它像一个技术很好但沟通风格很客服的同事:你知道它能解决问题,但你要先听它把一件简单的事说得很隆重。这件事和结尾部分要讨论的问题是相通的。工程化思维和对话舒适度,在这一版模型上被拉向了两个相反的方向。
总体来看,Opus 4.8 是一个「工程」气质拉满的模型,这使得它能够快速融入各个工具当中,不管是 CC 这样的代码工具,还是进入网页浏览和检索的 chrome 插件,甚至是各个自己做的小工具。「工程化」是一种思维,在 4.8 身上体现的淋漓尽致。
尽管「大而全」是厂家们经常打出来的口号,但在实际搭建自己的工作流中,不同的工具必然有不同的用处,Opus 4.8 做到的是,让其工程能力和思维,调动和流淌在各种不同的工具当中。不过,这反过来意味着用户要去适应它的风格。比如指令更加精确、分步骤、分类别地陈述自己的需求,甚至是在更宏观的层面,给不同的工具分配不同的任务。考虑到现在模型的发布越来越快,距离 4.7 不过也是一晃眼的事,这种频繁的更新所带来的频繁适应,势必会带来一些痛苦。除了把重负转嫁给用户,也是厂商要考虑的问题——为了融资上市一昧加速再加速,未来会带来相当多的适应问题。