AI กำลังเรียนรู้ที่จะทำงานของแพทย์ ทนายความ และที่ปรึกษา

BRAZIL-HEALTH-VIRUS-DIAGNOSIS-ARTIFICIAL INTELLIGENCE

(SeaPRwire) –   งานเหล่านั้นคล้ายกับงานที่ทนายความ แพทย์ นักวิเคราะห์การเงิน และที่ปรึกษาด้านการจัดการทำเพื่อหาเลี้ยงชีพ งานหนึ่งขอให้วินิจฉัยผู้ป่วยอายุหกขวบโดยอิงจากหลักฐานมัลติมีเดียเก้าชิ้น อีกงานหนึ่งขอคำแนะนำทางกฎหมายเกี่ยวกับทรัพย์สินของนักดนตรี งานที่สามเรียกร้องให้ประเมินมูลค่าส่วนหนึ่งของบริษัทเทคโนโลยีด้านการดูแลสุขภาพ

Mercor ซึ่งอ้างว่าเป็นผู้จัดหา “ข้อมูลผู้เชี่ยวชาญ” ให้กับบริษัท AI ชั้นนำทุกแห่ง กล่าวว่าได้ใช้เงินมากกว่า 500,000 ดอลลาร์สหรัฐในการพัฒนางาน 200 งานที่ทดสอบว่า AI “สามารถทำงานที่ใช้ความรู้ที่มีมูลค่าทางเศรษฐกิจสูง” ในด้านกฎหมาย การแพทย์ การเงิน และการให้คำปรึกษาด้านการจัดการได้หรือไม่ ผลลัพธ์ที่ได้ (APEX) ซึ่งเผยแพร่เมื่อวันพุธ มีรายชื่อผู้ร่วมเขียนซึ่งรวมถึงอดีตกรรมการผู้จัดการระดับโลกของ McKinsey อดีตคณบดีของ Harvard Business School และศาสตราจารย์จาก Harvard Law School ซึ่งให้คำแนะนำเกี่ยวกับการออกแบบและขอบเขตของงานในสาขาของตน ตามข้อมูลของ Mercor APEX “มุ่งเน้นไปที่การเจาะลึกมาก” Brendan Foody ซีอีโอวัย 22 ปีของบริษัทกล่าว “เราจะทำอย่างไรให้ครอบคลุมอย่างละเอียดเกี่ยวกับความหมายของการเป็นที่ปรึกษา นักการธนาคาร แพทย์ หรือทนายความ”

ในการสร้างงาน Mercor ได้ว่าจ้างผู้เชี่ยวชาญปกขาวซึ่งอดีตนายจ้างรวมถึงธนาคารชั้นนำ (Goldman Sachs, JPMorgan) บริษัทที่ปรึกษา (McKinsey, Boston Consulting Group) สำนักงานกฎหมาย (Latham & Watkins) และโรงพยาบาล (Mount Sinai) พวกเขามีประสบการณ์ระดับมืออาชีพโดยเฉลี่ย 7.25 ปี และค่าตอบแทนของพวกเขาที่ Mercor สามารถแข่งขันได้กับนายจ้างที่มีชื่อเสียงสูงก่อนหน้านี้ เว็บไซต์ของ Mercor โฆษณาอัตราค่าจ้างรายชั่วโมงเฉลี่ย 81 ดอลลาร์สหรัฐต่อชั่วโมง สูงถึงกว่า 200 ดอลลาร์สหรัฐต่อชั่วโมง ซึ่งเทียบเท่ากับเงินเดือนประจำปีประมาณ 400,000 ดอลลาร์สหรัฐ สำหรับ “ผู้เชี่ยวชาญเฉพาะด้านอาวุโส” ซึ่งต้องมีประสบการณ์ระดับมืออาชีพอย่างน้อยสี่ปีจึงจะสมัครได้

“เป็นการยากที่จะจินตนาการถึงงานรายชั่วโมงที่ดีกว่าจากมุมมองด้านค่าตอบแทน” Matt Seck อดีตนักวิเคราะห์ด้านการธนาคารเพื่อการลงทุนที่ Bank of America ซึ่งทำสัญญากับ Mercor เพื่อเขียนงานด้านการเงินที่คล้ายกับงานที่รวมอยู่ในเอกสารกล่าว

เกณฑ์มาตรฐานถูกนำมาใช้เพื่อประเมินความสามารถของ AI มานานแล้ว แต่การวัดปริมาณโดยตรงถึงความสามารถของแบบจำลอง AI ในการทำงานที่เป็นประโยชน์ทางเศรษฐกิจแสดงถึง “การเปลี่ยนแปลงกระบวนทัศน์” Osvald Nitski หนึ่งในผู้เขียนบทความกล่าว ในเกณฑ์มาตรฐานของ Mercor “การได้ 100% จะหมายความว่าคุณจะมีนักวิเคราะห์หรือผู้ช่วยในกล่องที่คุณสามารถไปส่งงานให้ได้ แล้วพวกเขาส่งมอบตามความต้องการของหุ้นส่วน หรือ MD หรือใครก็ตามที่จะให้คะแนนงานของบุคคลนั้น” Nitski กล่าว

แบบจำลองยังไม่ถึงจุดนั้น แต่กำลังพัฒนาอย่างรวดเร็ว GPT-4o ของ OpenAI ซึ่งเปิดตัวในเดือนพฤษภาคม 2024 ได้คะแนน 35.9% ในเกณฑ์มาตรฐาน GPT-5 ซึ่งเปิดตัวเมื่อกว่าหนึ่งปีต่อมา ได้คะแนน 64.2% ซึ่งเป็นคะแนนสูงสุดในเกณฑ์มาตรฐาน การได้ 64.2% ในเกณฑ์มาตรฐานไม่ได้หมายความว่า GPT-5 กำลังส่งมอบ 64.2% ของมูลค่าของคนงานที่เป็นมนุษย์ งานที่ไม่ถึง 100% “อาจไม่มีประโยชน์อย่างแท้จริง” ผู้เขียนบทความเขียน GPT-5 ได้คะแนนเต็มเพียงสองงานจาก 200 งาน ซึ่งเป็นงานด้านกฎหมายและงานด้านการธนาคารเพื่อการลงทุน ซึ่ง “ส่วนใหญ่เกี่ยวข้องกับการใช้เหตุผลขั้นพื้นฐาน การคำนวณอย่างง่าย และการค้นหาข้อมูลพื้นฐานจำนวนมาก” ตามข้อมูลของ Mercor

แม้ว่าแบบจำลองจะได้ 100% ในเกณฑ์มาตรฐานของ Mercor ก็อาจเป็นตัวแทนที่ไม่ดีสำหรับผู้เชี่ยวชาญที่เป็นมนุษย์ งานในเกณฑ์มาตรฐานของ Mercor มุ่งเน้นไปที่ “ผลลัพธ์ที่กำหนดไว้อย่างดี” เช่น การวินิจฉัยหรือการสร้างแบบจำลองทางการเงิน แทนที่จะเป็นงานที่เปิดกว้างมากขึ้นซึ่งอาจยอมรับคำตอบที่ถูกต้องได้หลายคำตอบ สิ่งนี้กำหนดให้คำอธิบายงานต้องมีสมมติฐานมากมายที่จำเป็นเพื่อให้แน่ใจว่าผลลัพธ์ที่ต้องการนั้นได้รับการระบุไว้อย่างดี ผลลัพธ์ของ AI เป็นแบบข้อความทั้งหมด ซึ่งหมายความว่าเกณฑ์มาตรฐานไม่ได้ทดสอบความสามารถของ AI ในการใช้คอมพิวเตอร์ ในแบบที่คนงานที่เป็นมนุษย์จะทำ (Mercor กล่าวว่า APEX เวอร์ชันอนาคต จะแก้ไขข้อจำกัดเหล่านี้) และการร่างข้อความแจ้งยาวๆ ที่จำเป็นสำหรับแบบจำลองในการทำงานให้เสร็จ “น่าเบื่อกว่าการทำเอง” Seck กล่าว

ถึงกระนั้น ก็มีสัญญาณว่าแบบจำลอง AI กำลังแข่งขันกับมนุษย์ได้ เกณฑ์มาตรฐานอื่น วันพฤหัสบดีที่ 25 กันยายน โดย OpenAI แสดงให้เห็นว่าผู้ประเมินที่เป็นมนุษย์ผู้เชี่ยวชาญชอบงานของ AI มากกว่างานของมนุษย์ 47.6% ของเวลาใน 220 งาน รวมถึงการออกแบบโบรชัวร์การขายสำหรับอสังหาริมทรัพย์และการประเมินภาพรอยโรคที่ผิวหนัง OpenAI ยังพบว่าประสิทธิภาพของแบบจำลองเพิ่มขึ้นอย่างมากในระยะเวลาอันสั้น โดยเพิ่มขึ้นมากกว่าสองเท่าใน “อัตราการชนะ” เมื่อเทียบกับมนุษย์ระหว่างเดือนมิถุนายน 2024 ถึงกันยายน 2025

เมื่อความสามารถของแบบจำลองเพิ่มขึ้น ความซับซ้อนของงานที่กำลังทดสอบและความสามารถของมนุษย์ที่จำเป็นในการสร้างงานที่ท้าทายอย่างเพียงพอก็เพิ่มขึ้นเช่นกัน การทดสอบก่อนหน้านี้วัดความสามารถที่เป็นนามธรรมค่อนข้างมากในคำถามเกี่ยวกับ และ ก่อนการเปิดตัว ChatGPT ในปี 2022 มักจะได้รับข้อมูลจากบริการคนงานจำนวนมาก ซึ่งจ่ายเงินให้คนงาน ต่อชั่วโมง ภายในปี 2023 นักเรียนปริญญาเอกกำลังถูก เพื่อสร้างคำถามปรนัยที่ท้าทายในด้านชีววิทยา ฟิสิกส์ และเคมี ในเดือนกันยายน xAI เลิกจ้างพนักงานข้อมูล “ทั่วไป” 500 คน ซึ่งเป็นส่วนหนึ่งของการ “ขยายและจัดลำดับความสำคัญ” ของพนักงานข้อมูล “ผู้เชี่ยวชาญ” ของบริษัท แน่นอนว่าพนักงานข้อมูลที่ได้รับค่าจ้างต่ำ ในการพัฒนาแบบจำลอง AI แต่ขีดจำกัดบนของทักษะและค่าตอบแทนที่จำเป็นในการพัฒนาเกณฑ์มาตรฐาน AI กำลังเพิ่มขึ้นอย่างรวดเร็ว

การวัดประโยชน์ใช้สอยของแบบจำลอง AI โดยตรงในงานที่มีมูลค่าทางเศรษฐกิจเป็น “เรื่องยากมากที่จะทำได้” Nitski กล่าว เกณฑ์ความสำเร็จในโดเมนต่างๆ เช่น การเงินและการให้คำปรึกษานั้นยากที่จะกำหนดมากกว่าในด้านวิศวกรรมซอฟต์แวร์ ตัวอย่างเช่น แม้จะมีเกณฑ์ที่สมบูรณ์แบบอยู่ในมือ การทำเครื่องหมายผลลัพธ์ของ AI ในวงกว้างนั้นยากกว่าในด้านวิศวกรรมซอฟต์แวร์ ซึ่งการทดสอบอัตโนมัติสามารถตรวจสอบได้ว่าโค้ดทำงานได้อย่างถูกต้องหรือไม่ สิ่งนี้อธิบายได้ส่วนหนึ่งว่าทำไมการทดสอบที่มีเป้าหมายเพื่อวัดประโยชน์ใช้สอยในโลกแห่งความเป็นจริงของแบบจำลอง AI จึง สำหรับวิศวกรรมซอฟต์แวร์มาตั้งแต่ปี 2023 เป็นอย่างน้อย แต่ล้าหลังในโดเมนปกขาวอื่นๆ อย่างไรก็ตาม เมื่อ AI ได้รับการปรับปรุง พวกเขาได้ช่วยแก้ปัญหาการให้คะแนนงานที่ซับซ้อน เกณฑ์ความสำเร็จสำหรับงานของ Mercor เขียนโดยผู้เชี่ยวชาญที่เป็นมนุษย์ แต่การทำเครื่องหมายทำโดย AI ซึ่ง Mercor กล่าวว่าเห็นด้วยกับผู้ให้คะแนนที่เป็นมนุษย์ 89% ของเวลา ช่วยในการปรับขนาดการประเมิน

การพัฒนาเกณฑ์มาตรฐานไม่ได้เป็นเพียงแค่การรู้ว่าแบบจำลองดีแค่ไหน ใน AI เช่นเดียวกับในธุรกิจ “สิ่งที่วัดได้จะสำเร็จ” การทดสอบที่ดีมักจะกระตุ้นให้เกิดความก้าวหน้าของ AI ในการทดสอบเหล่านั้น “ท้ายที่สุดแล้ว มันเป็นข้อมูลประเภทเดียวกันสำหรับการประเมินและการฝึกอบรม” Foody กล่าว การประเมินผลการปฏิบัติงานในเกมต่างๆ เช่น Go เป็นเรื่องตรงไปตรงมา AI ชนะ ผู้เชี่ยวชาญภายในปี 2016 ในปี 2023 เกณฑ์มาตรฐาน ประเมิน AI ในงานในโลกแห่งความเป็นจริงในด้านวิศวกรรมซอฟต์แวร์ สองปีต่อมา สถิติแรงงานสำหรับโปรแกรมเมอร์รุ่นเยาว์ น่าสงสัย

“AI ได้รับปริญญาเอกแล้ว” Foody กล่าว “ตอนนี้กำลังเริ่มเข้าสู่ตลาดงาน”

บทความนี้ให้บริการโดยผู้ให้บริการเนื้อหาภายนอก SeaPRwire (https://www.seaprwire.com/) ไม่ได้ให้การรับประกันหรือแถลงการณ์ใดๆ ที่เกี่ยวข้องกับบทความนี้

หมวดหมู่: ข่าวสําคัญ ข่าวประจําวัน

SeaPRwire จัดส่งข่าวประชาสัมพันธ์สดให้กับบริษัทและสถาบัน โดยมียอดการเข้าถึงสื่อกว่า 6,500 แห่ง 86,000 บรรณาธิการและนักข่าว และเดสก์ท็อปอาชีพ 3.5 ล้านเครื่องทั่ว 90 ประเทศ SeaPRwire รองรับการเผยแพร่ข่าวประชาสัมพันธ์เป็นภาษาอังกฤษ เกาหลี ญี่ปุ่น อาหรับ จีนตัวย่อ จีนตัวเต็ม เวียดนาม ไทย อินโดนีเซีย มาเลเซีย เยอรมัน รัสเซีย ฝรั่งเศส สเปน โปรตุเกส และภาษาอื่นๆ 

“`