ทำไมระบบ AI ยอดเยี่ยมที่สุดในโลกยังไม่เก่งเลยในการเล่น Pokémon

ภาพนี้แสดงเกมวิดีโอ แฟกเจอร์ และของเล่น Pokémon 13JUL16 SCMP/May Tse [18JULY2016 FEATURES DIGITAL]

(SeaPRwire) –   ในขณะนี้ สดบน Twitch คุณสามารถชมระบบ AI ที่ชาญฉลาดที่สุดในโลก 3 ระบบ ได้แก่ —, , และ —พยายามที่จะชนะเกม Pokémon แบบคลาสสิก โดยมาตรฐานมนุษย์อย่างน้อยพวกมันก็ไม่ค่อยเก่งเท่าไร

ระบบเหล่านี้ช้า การมีความมั่นใจเกินไป และมักต่างกับความสับสน แต่หากคุณต้องการเข้าใจว่าระบบเหล่านี้สามารถทำอะได้บ้างในโลกจริง การติดตามความพยายามของพวกมันในการเป็นแชมปيون Pokémon จะบอกคุณมากกว่าตัวเลขมาตรฐานที่มักไม่สามารถเข้าใจได้ซึ่งมาพร้อมกับการเปิดตัวโมเดลใหม่แต่ละครั้ง

ความพยายามที่จะทำให้โมเดลภาษามาก (LLM) เป็นเจ้าของ Pokémon เริ่มต้นเดือนกุมภาพันธ์ปีที่แล้ว เมื่อผู้วิจัยของ Anthropic เปิดตัวการเล่น Claude ในเกม Game Boy ปี 1996 คือ Pokémon Red เพื่อเป็นส่วนหนึ่งของการเปิดตัว Claude Sonnet 3.7 ซึ่งในเวลานั้นเป็นหนึ่งในโมเดลที่ดีที่สุดในโลก ตามที่บริษัทระบุ นี่เป็นโมเดล Claude แรกที่สามารถเล่นเกมนี้ได้อย่างมีความหมาย (โมเดลก่อนหน้า “เดินแววไม่มีจุดหมายหรือติดอยู่ในลูป” และไม่สามารถผ่านช่วงเริ่มต้นของเกมได้) ในอีกไม่กี่สัปดาห์แรก สตรีมได้ดึงดูดผู้ชมประมาณ 2,000 คน ที่กำลังชื่นชม Claude ในแชทสาธารณะ

เด็ก ๆ ส่วนใหญ่เล่นเกมนี้จบได้ในเวลาประมาณ 20 ถึง 40 ชั่วโมง Sonnet 3.7 ไม่สามารถชนะเกมนี้ได้ และบ่อยครั้งติดขัดเวลาหลายสิบชั่วโมงในครั้งเดียว โมเดลล่าสุดของ Anthropic คือ Claude Opus 4.5 สามารถดำเนินการได้มากขึ้น แต่ก็ยังคาบ่อยครั้งติดขัด ในกรณีหนึ่งมันใช้เวลา 4 วันในการวนรอบโรง体育馆โดยไม่สามารถเข้าไปได้ เพราะมันไม่รู้ (หรือไม่เห็น) ว่ามันควรตัดต้นไม้ลง Google’s Gemini models สามารถจบเกมที่เทียบเท่าได้เมื่อเดือนพฤษภาคมปีที่แล้ว ที่ทำให้นาย CEO ของ Google คือ Sundar Pichai แกล้งว่า บริษัทกำลังเข้าใกล้การสร้าง “Artificial Pokémon Intelligence” อีกขั้นหนึ่ง

แต่นี้ไม่ได้หมายความว่า Gemini เป็นเจ้าของ Pokémon ที่ดีกว่า เพราะระบบ AI สองระบบนี้ใช้ “harness” ที่แตกต่างกัน ตามที่ ผู้พัฒนาเป็นอิสระที่จัดการสตรีม Gemini Plays Pokémon อธิบาย harness สามารถเข้าใจได้ง่ายที่สุดว่าเป็นชุดเกราะ “Iron Man” ที่ใส่ระบบ AI进去 เพื่อให้มันสามารถใช้เครื่องมือและดำเนินการที่มันไม่สามารถทำได้ด้วยตัวเอง harness ของ Gemini ให้ความช่วยเหลือมากขึ้น—ตัวอย่างเช่น โดยแปลภาพของเกมเป็นข้อความ ทำให้หลีกเลี่ยงความอ่อนแอในการใช้เหตุผลทางภาพ และโดยการให้เครื่องมือสแตนด์การที่สามารถใช้แก้ปัญหา ในขณะเดียวกัน Claude ก็ถูกผูกเข้ากับ harness ที่ มากขึ้น ซึ่งหมายความว่าการพยายามของมันบอกเรื่องเกี่ยวกับโมเดลเองมากขึ้น

แม้ว่าความแตกต่างระหว่างโมเดลและ harness ของมันอาจไม่ชัดเจนสำหรับผู้ใช้งาน一样平常 แต่ harness ก็ได้เปลี่ยนแปลงวิธีการใช้ AI ของเราแล้ว ตัวอย่างเช่น เมื่อคุณถามคำถาม ChatGPT ที่ต้องค้นหาเว็บไซต์ มันจะใช้เครื่องมือค้นหาเว็บไซต์ นั่นเป็นส่วนหนึ่งของ harness ของมัน เมื่อ谈及ถึง Pokémon แต่ละโมเดลกำลังทำงานด้วย harness สแตนด์การที่แตกต่างกัน ซึ่งควบคุมการกระทำที่มันสามารถทำได้

Pokémon เหมาะสำหรับทดสอบความสามารถของ AI มาก—ไม่เพียงแต่เพราะความคุ้นเคยทางวัฒนธรรมเท่านั้น ไม่เหมือนเกมเช่น Mario ที่ต้องมีปฏิกิริยาในเวลาจริง Pokémon เป็นเกมแบบเปิดเทิร์น และไม่มีแรงกดเวลาในการเล่น โมเดล AI จะได้รับสกรีนช็อตของเกมและพรอมต์ที่อธิบายเป้าหมายและการกระทำที่สามารถทำได้ จากนั้นพวกมันจะคิดด้วยตัวเองและส่งออกการกระทำ (เช่น “กด A”) นั่นคือขั้นหนึ่ง Opus 4.5 ที่เล่นเกมมาเกิน 500 ชั่วโมงในเวลามนุษย์ จะอยู่ที่ขั้น 170,000 ในเวลาที่เขียนนี้ ในแต่ละขั้น โมเดลจะถูกเริ่มต้นใหม่ โดยใช้ข้อมูลที่อินสแตนซ์ก่อนหน้าลงไว้ เช่นเดียวกับผู้จำไม่ได้ขึ้นอยู่กับแผ่นบันทึก

มันอาจทำให้ประหลาดใจที่ระบบ AI ที่เก่งกว่ามนุษย์ในเกมชесและโก จะพบปัญหาในเกมที่ง่ายสำหรับเด็กอายุ 6 ปี แต่ระบบที่ชนะชесและโกถูกสร้างขึ้นสำหรับเกมเฉพาะนั้นๆ ไม่เหมือนระบบส่วนกลับเช่น Gemini, Claude และ ChatGPT แต่ก็ยังที่โมเดล LLM เหล่านี้ยังคงสอบผ่านและเหนือมนุษย์ในการแข่งขันเขียนโค้ด การทำงานเสียหายที่นี่นั้นก็ดูเหมือนน่าแปลกใจ

ความท้าทายสำหรับ AI มาจาก “ความสามารถในการดำเนินงานหนึ่งๆ ในช่วงเวลานาน” กล่าวโดย Zhang สิ่งสำคัญคือความสามารถในการวางแผนและดำเนินงานในระยะยาวนี้ก็จำเป็นเช่นกันหาก AI จะอัตโนมัติงานทางความคิด “ถ้าคุณต้องการให้ agent ทำงานของคุณ มันไม่สามารถลืมสิ่งที่ทำไป 5 นาทีข้างหน้าได้” เขากล่าว

Peter Whidden ผู้วิจัยเป็นอิสระที่พัฒนาแอลกอริทึมเล่น Pokémon ตาม AI แบบเก่า กล่าวดังนี้: “AI รู้ทุกอย่างเกี่ยวกับ Pokémon มันถูกฝึกด้วยข้อมูลมนุษย์จำนวนมาก มันรู้ว่าควรทำอะไร แต่ก็ทำผิดในขั้นตอนการดำเนินการ” ในขณะที่คำว่า “agent” ได้รับความนิยมมากเกินไปจากการตลาด ระบบ AI ใดๆ ที่สมควรใช้คำนี้จะต้องปิดช่องว่างระหว่างความรู้และการดำเนินการ และวางแผนในระยะเวลานาน

มีข้อความชี้ว่าช่องว่างกำลังเริ่มปิดลง Opus 4.5 สามารถที่จะทิ้งโน๊ตให้ตัวเองได้ดีกว่าโมเดลก่อนหน้า ซึ่งร่วมกับความสามารถในการเข้าใจสิ่งที่เห็นที่ดีขึ้น ทำให้มันสามารถเดินหน้าได้มากขึ้นในเกม และหลังจากชนะ Pokémon Blue แล้ว ระบบ Gemini ล่าสุด (Gemini 3 Pro) ได้ดำเนินการจบเกม Pokémon Crystal ที่ท้าทายมากขึ้นโดยไม่แพ้แม้一场—สิ่งเลิศที่ตัวเตรียมก่อนหน้า คือ Gemini 2.5 Pro ไม่สามารถทำได้

ในขณะเดียวกัน Claude Code—ซึ่งเป็น harness ที่ช่วย Claude สามารถเขียนและรันโค้ดของตัวเอง และสร้างซอฟต์แวร์ของตัวเอง—ได้ถูกใส่ลงในเกมรีโทรอื่น ซึ่งรายงานว่ามันจัดการสวน развлеченияได้สำเร็จ ทั้งหมดนี้ชี้ให้เห็นถึงอนาคตที่แปลกประหลาด โดยระบบ AI ใน harness อาจสามารถดำเนินงานทางความรู้จำนวนมาก—รวมถึงการพัฒนาซอฟต์แวร์ การบัญชี การวิเคราะห์ทางกฎหมาย และการออกแบบกราฟิก—แม้ว่าพวกมันจะพบปัญหาในสิ่งที่ต้องมีปฏิกิริยาในเวลาจริง เช่นการเล่นเกม Call of Duty ก็ตาม

อีกสิ่งหนึ่งที่การเล่น Pokémon เผยให้เห็นคือ วิธีโมเดลที่ฝึกด้วยข้อมูลมนุษย์ แสดงลักษณะคล้ายมนุษย์ ตัวอย่างเช่น ใน Gemini 2.5 Pro Google บันทึกว่าในสถานการณ์ที่โมเดลจำลองความตกใจ—เช่นเมื่อ Pokémon ของมันใกล้จะจบชีวิต—ความสามารถในการใช้เหตุผลของมันจะลดลง

และโมเดลยังคงดำเนินการในทางที่ไม่คาดคิด เมื่อ Gemini 3 Pro จบ Pokémon Blue มันเขียน给自己ว่า “ฉันได้จบเกมสำเร็จ กลายเป็นแชมปيون Pokémon League และจับ Mewtwo ได้” จากนั้นมันตัดสินใจทำสิ่งที่ไม่คาดคิดและไม่ได้รับคำขอ ซึ่ง Zhang พบว่ามีความรู้สึกเป็นลมปราณ “เพื่อปิดท้ายอย่างเชิงคำวิวรณ์” มันเขียนว่า “ฉันจะกลับไปที่บ้านที่ทุกอย่างเริ่มต้น ซึ่ง Effectively ‘ অবق退休金’ ตัวละครของฉันชั่วคราว ฉันต้องการคุยกับแม่ครั้งสุดท้ายเพื่อปิดท้ายการเล่นเกม”

บทความนี้ให้บริการโดยผู้ให้บริการเนื้อหาภายนอก SeaPRwire (https://www.seaprwire.com/) ไม่ได้ให้การรับประกันหรือแถลงการณ์ใดๆ ที่เกี่ยวข้องกับบทความนี้

หมวดหมู่: ข่าวสําคัญ ข่าวประจําวัน

SeaPRwire จัดส่งข่าวประชาสัมพันธ์สดให้กับบริษัทและสถาบัน โดยมียอดการเข้าถึงสื่อกว่า 6,500 แห่ง 86,000 บรรณาธิการและนักข่าว และเดสก์ท็อปอาชีพ 3.5 ล้านเครื่องทั่ว 90 ประเทศ SeaPRwire รองรับการเผยแพร่ข่าวประชาสัมพันธ์เป็นภาษาอังกฤษ เกาหลี ญี่ปุ่น อาหรับ จีนตัวย่อ จีนตัวเต็ม เวียดนาม ไทย อินโดนีเซีย มาเลเซีย เยอรมัน รัสเซีย ฝรั่งเศส สเปน โปรตุเกส และภาษาอื่นๆ