తికమకపెట్టే ప్రశ్నలకు ఏఐ స్కోర్‌ ఎంతంటే..

Mar 23 2026 2:00 PM | Updated on Mar 23 2026 2:40 PM

AI Faces Humanity Last Exam Beyond MMLU Benchmarks to Redefine Intelligence

‘హ్యూమనిటీస్ లాస్ట్ ఎగ్జామ్’ను అధిగమించగలదా?

కృత్రిమ మేధ (ఏఐ) అసాధ్యాలను సుసాధ్యం చేస్తోంది. ఒకప్పుడు క్లిష్టంగా భావించిన మ్యాసివ్‌ మల్టీ టాస్కింగ్‌ ల్యాంగ్వేజ్‌ అండర్‌స్టాండింగ్‌(ఎంఎంఎల్‌యూ) వంటి పరీక్షల్లో 90 శాతానికి పైగా స్కోరు సాధించి మనుషుల మేధస్సును సవాలు చేస్తోంది. అయితే, ఏఐ సామర్థ్యాన్ని కొలిచే పాత కొలమానాలు సరిపోవని భావించిన శాస్త్రవేత్తలు దానికి అత్యంత కఠినమైన పరీక్షలు సిద్ధం చేశారు. అదే ‘హ్యూమనిటీస్ లాస్ట్ ఎగ్జామ్(హెచ్‌ఎల్‌ఈ). ఎంఎంఎల్‌యూ అనేది ఏఐ మోడల్స్ తెలివితేటలను, విజ్ఞానాన్ని, సమస్య పరిష్కార సామర్థ్యాన్ని కొలవడానికి ఉపయోగించే ఒక అత్యంత ప్రజాదరణ పొందిన బెంచ్‌మార్క్ పరీక్ష. ప్రస్తుతం టెక్ ప్రపంచంలో హాట్ టాపిక్‌గా మారిన హెచ్‌ఎల్‌ఈ పరీక్ష వివరాలు, ఏఐ మోడల్స్ పనితీరుపై కథనం.

ఏమిటీ హెచ్‌ఎల్‌ఈ? ఎందుకంత కఠినం?

ప్రపంచవ్యాప్తంగా 50 దేశాలకు చెందిన 500 సంస్థల నుంచి దాదాపు 1,000 మంది నిపుణులు సిద్ధం చేసిన 2,500 ప్రశ్నల సమాహారమే ఈ హెచ్‌ఎల్‌ఈ. సెంటర్ ఫర్ ఏఐ సేఫ్టీ, స్కేల్ ఏఐ పరిశోధకులు దీన్ని రూపొందించారు. ఏఐ మోడల్స్‌లోని లోపాలను ఎత్తిచూపడం, వాటి అసలు సామర్థ్యాన్ని పరీక్షించడం దీని లక్ష్యం. 100కు పైగా విభాగాల్లోని నిపుణులు పంపిన ప్రతి ప్రశ్న ప్రస్తుత ఏఐ మోడల్స్‌ను ఓడించడమే కాకుండా ఇద్దరు నిపుణుల సమీక్షను దాటాల్సి ఉంటుంది. ఈ ప్రశ్నలు ఎంత కఠినంగా ఉన్నాయంటే ఆయా రంగాల్లోని నిపుణుల మధ్యే 15.4% నుంచి 18% వరకు భిన్నాభిప్రాయాలు వ్యక్తమయ్యాయి. అంటే, ఏ ఒక్క మనిషి కూడా అన్ని ప్రశ్నలకు సమాధానం చెప్పడం అసాధ్యం.

గెలుపు ఎవరిది?

ఈ పరీక్ష ప్రారంభమైనప్పుడు (జనవరిలో ‘నేచర్’ పత్రికలో ప్రచురితమైన సమయానికి) అత్యుత్తమ ఏఐ మోడల్స్ కూడా 10 శాతం కంటే తక్కువ స్కోరుకే పరిమితమయ్యాయి. కానీ, గత కొద్ది నెలల్లోనే ఈ పరిస్థితి వేగంగా మారుతోంది.

ఏఐ మోడల్	ప్రారంభ స్కోరు (%)	ప్రస్తుత స్కోరు (%)
GPT-4o	2.7%	-
OpenAI o1	8.0%	-
DeepSeek-R1	8.5%	-
GPT-5	-	25.3%
Gemini 2.5 Pro	-	21.6%
Gemini 3 Pro (Live)	-	38.3%

ఆందోళన కలిగిస్తున్న అంశాలు

ఈ పరీక్షలో బయటపడిన ప్రధాన లోపం ‘కాలిబ్రేషన్ ఎర్రర్’. సమాధానం తప్పు అని తెలిసినా ఏఐ మోడల్స్ అది 100% సరైనదని మొండిగా వాదిస్తున్నాయి. ఇది భవిష్యత్తులో వైద్య రంగం లేదా ఆర్థిక రంగంలో ఏఐని వాడేటప్పుడు తీవ్రమైన ప్రమాదాలకు దారితీయవచ్చు. ‘ఒక తప్పు సమాధానాన్ని తప్పు అని ఏఐ గుర్తించలేకపోవడం అనేది సాంకేతిక లోపం కాదు, ప్రస్తుత ఏఐ డిజైన్ లోనే ఉన్న ఒక నిర్మాణాత్మక సమస్య’ అని నిపుణులు చెబుతున్నారు.

కొలమానమే కరిగిపోతోందా?

ఏఐ సామర్థ్యం ఎంత వేగంగా పెరుగుతుందంటే దాన్ని కొలిచే ‘యార్డ్‌స్టిక్’ కూడా సరిపోవడం లేదు. అందుకే పరిశోధకులు ‘హెచ్‌ఎల్‌ఈ రోలింగ్‌’ పేరుతో నిరంతరం అప్‌డేట్ అయ్యే డైనమిక్ టెస్టింగ్ విధానాన్ని ప్రకటించారు. ఇందులో అత్యుత్తమ స్కోరు సాధించినంత మాత్రాన దానికి జనరల్ ఇంటెలిజెన్స్ వచ్చినట్లు కాదని, కేవలం అకడమిక్ ప్రశ్నల్లో నిపుణత సాధించినట్లేనని శాస్త్రవేత్తలు స్పష్టం చేస్తున్నారు. ఏది ఏమైనా మనిషి సృష్టించిన పరీక్షను మనిషి కంటే వేగంగా ఏఐ ఛేదిస్తుండటం విశేషం.

ఇదీ చదవండి: మీ డబ్బు మీ కోసం పనిచేస్తుందా?