หมวดหมู่

การทดสอบใช้งานจริงของ Claude Opus 4.8: เขาทำงานได้ดียิ่งขึ้น แต่คำพูดของเขากลับรุนแรงยิ่งขึ้น

การทดสอบใช้งานจริงของ Claude Opus 4.8

Jun 1st,2026 5 มุมมอง

    เช้านี้ Anthropic แซงหน้า OpenAI อย่างเป็นทางการ โดยประกาศมูลค่าบริษัทใหม่และเปิดตัว Claude Opus 4.8 เวอร์ชันล่าสุดของผลิตภัณฑ์เรือธง ซึ่งมีข่าวลือมาสองวันแล้ว เราได้ทดลองใช้งานทันทีและรวบรวมความคิดเห็นเบื้องต้นจากชุมชนผู้ใช้ ข้อสรุปคือ มันมีความสามารถมากขึ้น แต่ "บุคลิก" ของมันกลับใช้งานยากขึ้น การทดสอบของ APPSO: สมองได้รับการอัพเกรด แต่ปากหายไป เราไม่ได้ใช้สถานการณ์การทดสอบมาตรฐานที่ Anthropic เตรียมไว้ แต่ทดสอบด้วยความต้องการในโลกแห่งความเป็นจริงของเราเอง: การดึงและจัดเก็บบันทึกการสนทนาในอดีตทั้งหมดจากแพลตฟอร์มการทำงานร่วมกันออนไลน์ ปริมาณข้อมูลมีมากกว่า 30MB กระจัดกระจายอยู่ทั่วอินเทอร์เฟซส่วนหน้า โดยไม่มีปุ่มส่งออกที่ใช้งานง่าย งานประเภทนี้ไม่ได้ทดสอบว่าโมเดลสามารถเขียนโค้ดได้หรือไม่ แต่เป็นการทดสอบว่ามันสามารถทำงานร่วมกับนักพัฒนาที่ไม่ใช่มืออาชีพเพื่อคิดหาวิธีและทำงานให้เสร็จสมบูรณ์ตั้งแต่ต้นได้หรือไม่ จุดเริ่มต้นมาจากการค้นพบโดยบังเอิญ เพื่อนร่วมงานฝ่ายทดสอบของเราสังเกตเห็นว่า ส่วนติดต่อผู้ใช้ของแพลตฟอร์มจะแสดงข้อมูลเก่าๆ แวบขึ้นมาเป็นบางช่วงเวลา ราวกับว่ามีการโหลดข้อมูลไปยังฝั่งไคลเอนต์ชั่วครู่แล้วก็ดึงกลับไป เขาได้แจ้งข้อสังเกตนี้ไปยังเวอร์ชัน 4.8 โดยไม่ได้ให้คำอธิบายทางเทคนิคใดๆ เพียงแค่กล่าวอย่างตรงไปตรงมาว่า "ผมเห็นข้อความเก่าๆ บางข้อความแวบขึ้นมาแล้วก็หายไป"
   4.8 ผมเข้าใจความหมายของเขาและให้คำตัดสินที่ถูกต้อง: ข้อมูลถูกโหลดผ่านคำขออินเทอร์เฟซและสามารถดักจับได้ที่เลเยอร์เครือข่ายของเบราว์เซอร์ จากนั้นผมได้จัดทำแผนปฏิบัติการโดยแนะนำขั้นตอนต่างๆ ได้แก่ เครื่องมือสำหรับนักพัฒนา แผงเครือข่าย การกรองคำหลัก และการค้นหาคำขอเป้าหมาย คำตัดสินนั้นแม่นยำและความคิดก็ชัดเจน แต่ความขัดแย้งในข้อ 4.8 คือ ความสามารถในการคิดนั้นแข็งแกร่ง แต่การแสดงออกนั้น...ยุ่งยาก วิธีแก้ปัญหาทางเทคนิคทุกอย่างถูกต้อง แต่คำอธิบายในแต่ละขั้นตอนต้องใช้สองหรือสามประโยค คุณถามเกี่ยวกับวิธีการหนึ่ง และมันก็ให้คำตอบแรกว่า "แน่นอน! มาดูทีละขั้นตอนกัน" จากนั้นก็ดึงรายการแบบหัวข้อออกมา แล้วก็เพิ่ม "คำอธิบายเพิ่มเติม" ในตอนท้ายของรายการเพื่ออธิบายว่าทำไมจึงต้องทำแบบนี้ สิ่งที่สามารถอธิบายได้ในสามประโยคกลับต้องใช้ข้อความถึงสามหน้าจอ ผมแค่ไม่รู้ว่าจะเขียนโค้ดอย่างไร ไม่ใช่ว่าสมองผมทำงานผิดปกติ
   นี่ไม่ใช่ปัญหาใหม่ในเวอร์ชัน 4.8 แต่เป็นปัญหาที่มีมานานแล้วในซีรี่ส์ Opus ตั้งแต่เวอร์ชัน 4.7 แม้จะมีการวิจารณ์ซ้ำแล้วซ้ำเล่า แต่เวอร์ชันนี้ก็ยังไม่ดีขึ้นและอาจแย่ลงด้วยซ้ำ ส่วนที่ใช้เวลานานที่สุดคือขั้นตอนการแก้ไขข้อผิดพลาด: หลังจากวิธีแก้ปัญหาแรก ผู้ใช้พบข้อผิดพลาด เวอร์ชัน 4.8 ระบุปัญหาได้อย่างแม่นยำ ให้วิธีแก้ปัญหาใหม่ และไม่ทำซ้ำขั้นตอนที่ล้มเหลว นี่ดีกว่าเวอร์ชัน 4.6 อย่างแน่นอน ซึ่งบางครั้งข้อผิดพลาดจะลืมสิ่งที่ได้ลองทำไปแล้วในระหว่างการแก้ไขข้อผิดพลาดหลายรอบ การยอมรับความผิดพลาดเป็นสิ่งที่ดี แต่ไม่จำเป็นต้องเข้มงวดเกินไป การเพิ่มการวิเคราะห์สาเหตุและรายการแบบหัวข้อทำให้ดูเหมือนอีเมลบริการลูกค้า ทั้งๆ ที่ควรจะเป็นการตรวจสอบปัญหาทางเทคนิค
ในที่สุด ข้อมูลก็ถูกส่งออกในรูปแบบ HAR อย่างสมบูรณ์ และการทำความสะอาดและจัดเรียงข้อมูลโดยใช้สคริปต์แบบกำหนดเองก็เสร็จสมบูรณ์อย่างราบรื่น ผู้ใช้บางรายยังไม่ได้รับการอัปเดต Claude Code แต่ Claude สำหรับ Chrome อยู่ในเวอร์ชัน 4.8 แล้ว และได้มีการเปิดใช้งานในเครื่องมือสำนักงานหลักๆ เช่น Notion แล้ว เราได้ทดสอบการใช้ Claude เพื่อทำงานพื้นฐาน เช่น การค้นหาและการกรอกแบบฟอร์มใน Chrome

　　一个能干活但不会聊天的同事如果只看结果，4.8 确实更强了，它理解非标准需求的能力更好，多步骤任务的上下文保持更稳，纠错不绕弯路。但如果看过程，体验却是拧巴的。它的问题不在于不会思考，准确地说，是它说话的方式像一个永远在做汇报的人：事事要分点，点点要展开，展开完还要总结，总结完再问你「还有什么我可以帮到你的？」。包括那些经典 AI 味开场白，「这是一个很棒的问题！」「当然可以！」，在前代模型上就已经让人烦躁，到 4.8 依然健在。这与其说是「缺点」，不如说是一种设计选择。Opus 4.8 的工程能力拉满了，它像一个技术很好但沟通风格很客服的同事：你知道它能解决问题，但你要先听它把一件简单的事说得很隆重。这件事和结尾部分要讨论的问题是相通的。工程化思维和对话舒适度，在这一版模型上被拉向了两个相反的方向。
　　总体来看，Opus 4.8 是一个「工程」气质拉满的模型，这使得它能够快速融入各个工具当中，不管是 CC 这样的代码工具，还是进入网页浏览和检索的 chrome 插件，甚至是各个自己做的小工具。「工程化」是一种思维，在 4.8 身上体现的淋漓尽致。
　　尽管「大而全」是厂家们经常打出来的口号，但在实际搭建自己的工作流中，不同的工具必然有不同的用处，Opus 4.8 做到的是，让其工程能力和思维，调动和流淌在各种不同的工具当中。不过，这反过来意味着用户要去适应它的风格。比如指令更加精确、分步骤、分类别地陈述自己的需求，甚至是在更宏观的层面，给不同的工具分配不同的任务。考虑到现在模型的发布越来越快，距离 4.7 不过也是一晃眼的事，这种频繁的更新所带来的频繁适应，势必会带来一些痛苦。除了把重负转嫁给用户，也是厂商要考虑的问题——为了融资上市一昧加速再加速，未来会带来相当多的适应问题。

เครื่องมือเขียนโปรแกรมเทอร์มินัลที่ขับเคลื่อนด้วย AI อีกตัวหนึ่งได้ถูกปล่อยออกมาในรูปแบบโอเพนซอร์สแล้ว!

ต่อไป

Anthropic 保密提交 IPO 文件，抢先 OpenAI 上市

บริการหลักของจีน

จุดเด่นของบริษัท / จุดขายสำคัญ (เหตุผลที่ควรเลือกเรา)

การประยุกต์ใช้ในอุตสาหกรรม

隐私声明

ข่าวสารล่าสุดเกี่ยวกับ AI

การทดสอบใช้งานจริงของ Claude Opus 4.8: เขาทำงานได้ดียิ่งขึ้น แต่คำพูดของเขากลับรุนแรงยิ่งขึ้น

ข่าวที่เกี่ยวข้อง

Example news post

Example news post

Example news post

Example news post

คุณพร้อมที่จะร่วมงานกับเราหรือยัง?