తికమకపెట్టే ప్రశ్నలకు ఏఐ స్కోర్‌ ఎంతంటే.. | AI Faces Humanity Last Exam Beyond MMLU Benchmarks To Redefine Intelligence, Exposes Strengths And Flaws Of Advanced AI Models | Sakshi
Sakshi News home page

తికమకపెట్టే ప్రశ్నలకు ఏఐ స్కోర్‌ ఎంతంటే..

Mar 23 2026 2:00 PM | Updated on Mar 23 2026 2:40 PM

AI Faces Humanity Last Exam Beyond MMLU Benchmarks to Redefine Intelligence

‘హ్యూమనిటీస్ లాస్ట్ ఎగ్జామ్’ను అధిగమించగలదా?

కృత్రిమ మేధ (ఏఐ) అసాధ్యాలను సుసాధ్యం చేస్తోంది. ఒకప్పుడు క్లిష్టంగా భావించిన మ్యాసివ్‌ మల్టీ టాస్కింగ్‌ ల్యాంగ్వేజ్‌ అండర్‌స్టాండింగ్‌(ఎంఎంఎల్‌యూ) వంటి పరీక్షల్లో 90 శాతానికి పైగా స్కోరు సాధించి మనుషుల మేధస్సును సవాలు చేస్తోంది. అయితే, ఏఐ సామర్థ్యాన్ని కొలిచే పాత కొలమానాలు సరిపోవని భావించిన శాస్త్రవేత్తలు దానికి అత్యంత కఠినమైన పరీక్షలు సిద్ధం చేశారు. అదే ‘హ్యూమనిటీస్ లాస్ట్ ఎగ్జామ్(హెచ్‌ఎల్‌ఈ). ఎంఎంఎల్‌యూ అనేది ఏఐ మోడల్స్ తెలివితేటలను, విజ్ఞానాన్ని, సమస్య పరిష్కార సామర్థ్యాన్ని కొలవడానికి ఉపయోగించే ఒక అత్యంత ప్రజాదరణ పొందిన బెంచ్‌మార్క్ పరీక్ష. ప్రస్తుతం టెక్ ప్రపంచంలో హాట్ టాపిక్‌గా మారిన హెచ్‌ఎల్‌ఈ పరీక్ష వివరాలు, ఏఐ మోడల్స్ పనితీరుపై కథనం.

ఏమిటీ హెచ్‌ఎల్‌ఈ? ఎందుకంత కఠినం?

ప్రపంచవ్యాప్తంగా 50 దేశాలకు చెందిన 500 సంస్థల నుంచి దాదాపు 1,000 మంది నిపుణులు సిద్ధం చేసిన 2,500 ప్రశ్నల సమాహారమే ఈ హెచ్‌ఎల్‌ఈ. సెంటర్ ఫర్ ఏఐ సేఫ్టీ, స్కేల్ ఏఐ పరిశోధకులు దీన్ని రూపొందించారు. ఏఐ మోడల్స్‌లోని లోపాలను ఎత్తిచూపడం, వాటి అసలు సామర్థ్యాన్ని పరీక్షించడం దీని లక్ష్యం. 100కు పైగా విభాగాల్లోని నిపుణులు పంపిన ప్రతి ప్రశ్న ప్రస్తుత ఏఐ మోడల్స్‌ను ఓడించడమే కాకుండా ఇద్దరు నిపుణుల సమీక్షను దాటాల్సి ఉంటుంది. ఈ ప్రశ్నలు ఎంత కఠినంగా ఉన్నాయంటే ఆయా రంగాల్లోని నిపుణుల మధ్యే 15.4% నుంచి 18% వరకు భిన్నాభిప్రాయాలు వ్యక్తమయ్యాయి. అంటే, ఏ ఒక్క మనిషి కూడా అన్ని ప్రశ్నలకు సమాధానం చెప్పడం అసాధ్యం.

గెలుపు ఎవరిది?

ఈ పరీక్ష ప్రారంభమైనప్పుడు (జనవరిలో ‘నేచర్’ పత్రికలో ప్రచురితమైన సమయానికి) అత్యుత్తమ ఏఐ మోడల్స్ కూడా 10 శాతం కంటే తక్కువ స్కోరుకే పరిమితమయ్యాయి. కానీ, గత కొద్ది నెలల్లోనే ఈ పరిస్థితి వేగంగా మారుతోంది.

ఏఐ మోడల్ప్రారంభ స్కోరు (%)ప్రస్తుత స్కోరు (%)
GPT-4o2.7%-
OpenAI o18.0%-
DeepSeek-R18.5%-
GPT-5-25.3%
Gemini 2.5 Pro-21.6%
Gemini 3 Pro (Live)-38.3%

 

ఆందోళన కలిగిస్తున్న అంశాలు

ఈ పరీక్షలో బయటపడిన ప్రధాన లోపం ‘కాలిబ్రేషన్ ఎర్రర్’. సమాధానం తప్పు అని తెలిసినా ఏఐ మోడల్స్ అది 100% సరైనదని మొండిగా వాదిస్తున్నాయి. ఇది భవిష్యత్తులో వైద్య రంగం లేదా ఆర్థిక రంగంలో ఏఐని వాడేటప్పుడు తీవ్రమైన ప్రమాదాలకు దారితీయవచ్చు. ‘ఒక తప్పు సమాధానాన్ని తప్పు అని ఏఐ గుర్తించలేకపోవడం అనేది సాంకేతిక లోపం కాదు, ప్రస్తుత ఏఐ డిజైన్ లోనే ఉన్న ఒక నిర్మాణాత్మక సమస్య’ అని నిపుణులు చెబుతున్నారు.

కొలమానమే కరిగిపోతోందా?

ఏఐ సామర్థ్యం ఎంత వేగంగా పెరుగుతుందంటే దాన్ని కొలిచే ‘యార్డ్‌స్టిక్’ కూడా సరిపోవడం లేదు. అందుకే పరిశోధకులు ‘హెచ్‌ఎల్‌ఈ రోలింగ్‌’ పేరుతో నిరంతరం అప్‌డేట్ అయ్యే డైనమిక్ టెస్టింగ్ విధానాన్ని ప్రకటించారు. ఇందులో అత్యుత్తమ స్కోరు సాధించినంత మాత్రాన దానికి జనరల్ ఇంటెలిజెన్స్ వచ్చినట్లు కాదని, కేవలం అకడమిక్ ప్రశ్నల్లో నిపుణత సాధించినట్లేనని శాస్త్రవేత్తలు స్పష్టం చేస్తున్నారు. ఏది ఏమైనా మనిషి సృష్టించిన పరీక్షను మనిషి కంటే వేగంగా ఏఐ ఛేదిస్తుండటం విశేషం.

ఇదీ చదవండి: మీ డబ్బు మీ కోసం పనిచేస్తుందా?

Advertisement

Related News By Category

Related News By Tags

Advertisement
 
Advertisement
Advertisement