‘హ్యూమనిటీస్ లాస్ట్ ఎగ్జామ్’ను అధిగమించగలదా?
కృత్రిమ మేధ (ఏఐ) అసాధ్యాలను సుసాధ్యం చేస్తోంది. ఒకప్పుడు క్లిష్టంగా భావించిన మ్యాసివ్ మల్టీ టాస్కింగ్ ల్యాంగ్వేజ్ అండర్స్టాండింగ్(ఎంఎంఎల్యూ) వంటి పరీక్షల్లో 90 శాతానికి పైగా స్కోరు సాధించి మనుషుల మేధస్సును సవాలు చేస్తోంది. అయితే, ఏఐ సామర్థ్యాన్ని కొలిచే పాత కొలమానాలు సరిపోవని భావించిన శాస్త్రవేత్తలు దానికి అత్యంత కఠినమైన పరీక్షలు సిద్ధం చేశారు. అదే ‘హ్యూమనిటీస్ లాస్ట్ ఎగ్జామ్(హెచ్ఎల్ఈ). ఎంఎంఎల్యూ అనేది ఏఐ మోడల్స్ తెలివితేటలను, విజ్ఞానాన్ని, సమస్య పరిష్కార సామర్థ్యాన్ని కొలవడానికి ఉపయోగించే ఒక అత్యంత ప్రజాదరణ పొందిన బెంచ్మార్క్ పరీక్ష. ప్రస్తుతం టెక్ ప్రపంచంలో హాట్ టాపిక్గా మారిన హెచ్ఎల్ఈ పరీక్ష వివరాలు, ఏఐ మోడల్స్ పనితీరుపై కథనం.
ఏమిటీ హెచ్ఎల్ఈ? ఎందుకంత కఠినం?
ప్రపంచవ్యాప్తంగా 50 దేశాలకు చెందిన 500 సంస్థల నుంచి దాదాపు 1,000 మంది నిపుణులు సిద్ధం చేసిన 2,500 ప్రశ్నల సమాహారమే ఈ హెచ్ఎల్ఈ. సెంటర్ ఫర్ ఏఐ సేఫ్టీ, స్కేల్ ఏఐ పరిశోధకులు దీన్ని రూపొందించారు. ఏఐ మోడల్స్లోని లోపాలను ఎత్తిచూపడం, వాటి అసలు సామర్థ్యాన్ని పరీక్షించడం దీని లక్ష్యం. 100కు పైగా విభాగాల్లోని నిపుణులు పంపిన ప్రతి ప్రశ్న ప్రస్తుత ఏఐ మోడల్స్ను ఓడించడమే కాకుండా ఇద్దరు నిపుణుల సమీక్షను దాటాల్సి ఉంటుంది. ఈ ప్రశ్నలు ఎంత కఠినంగా ఉన్నాయంటే ఆయా రంగాల్లోని నిపుణుల మధ్యే 15.4% నుంచి 18% వరకు భిన్నాభిప్రాయాలు వ్యక్తమయ్యాయి. అంటే, ఏ ఒక్క మనిషి కూడా అన్ని ప్రశ్నలకు సమాధానం చెప్పడం అసాధ్యం.
గెలుపు ఎవరిది?
ఈ పరీక్ష ప్రారంభమైనప్పుడు (జనవరిలో ‘నేచర్’ పత్రికలో ప్రచురితమైన సమయానికి) అత్యుత్తమ ఏఐ మోడల్స్ కూడా 10 శాతం కంటే తక్కువ స్కోరుకే పరిమితమయ్యాయి. కానీ, గత కొద్ది నెలల్లోనే ఈ పరిస్థితి వేగంగా మారుతోంది.
| ఏఐ మోడల్ | ప్రారంభ స్కోరు (%) | ప్రస్తుత స్కోరు (%) |
|---|---|---|
| GPT-4o | 2.7% | - |
| OpenAI o1 | 8.0% | - |
| DeepSeek-R1 | 8.5% | - |
| GPT-5 | - | 25.3% |
| Gemini 2.5 Pro | - | 21.6% |
| Gemini 3 Pro (Live) | - | 38.3% |
ఆందోళన కలిగిస్తున్న అంశాలు
ఈ పరీక్షలో బయటపడిన ప్రధాన లోపం ‘కాలిబ్రేషన్ ఎర్రర్’. సమాధానం తప్పు అని తెలిసినా ఏఐ మోడల్స్ అది 100% సరైనదని మొండిగా వాదిస్తున్నాయి. ఇది భవిష్యత్తులో వైద్య రంగం లేదా ఆర్థిక రంగంలో ఏఐని వాడేటప్పుడు తీవ్రమైన ప్రమాదాలకు దారితీయవచ్చు. ‘ఒక తప్పు సమాధానాన్ని తప్పు అని ఏఐ గుర్తించలేకపోవడం అనేది సాంకేతిక లోపం కాదు, ప్రస్తుత ఏఐ డిజైన్ లోనే ఉన్న ఒక నిర్మాణాత్మక సమస్య’ అని నిపుణులు చెబుతున్నారు.
కొలమానమే కరిగిపోతోందా?
ఏఐ సామర్థ్యం ఎంత వేగంగా పెరుగుతుందంటే దాన్ని కొలిచే ‘యార్డ్స్టిక్’ కూడా సరిపోవడం లేదు. అందుకే పరిశోధకులు ‘హెచ్ఎల్ఈ రోలింగ్’ పేరుతో నిరంతరం అప్డేట్ అయ్యే డైనమిక్ టెస్టింగ్ విధానాన్ని ప్రకటించారు. ఇందులో అత్యుత్తమ స్కోరు సాధించినంత మాత్రాన దానికి జనరల్ ఇంటెలిజెన్స్ వచ్చినట్లు కాదని, కేవలం అకడమిక్ ప్రశ్నల్లో నిపుణత సాధించినట్లేనని శాస్త్రవేత్తలు స్పష్టం చేస్తున్నారు. ఏది ఏమైనా మనిషి సృష్టించిన పరీక్షను మనిషి కంటే వేగంగా ఏఐ ఛేదిస్తుండటం విశేషం.
ఇదీ చదవండి: మీ డబ్బు మీ కోసం పనిచేస్తుందా?


