కృత్రిమ మేధ (ఏఐ) రంగంలో విప్లవాత్మక మార్పులు వస్తున్నాయని భావిస్తున్న తరుణంలో భారతీయ భాషల విషయంలో ప్రస్తుత ఏఐ టూల్స్ డొల్లతనాన్ని ‘హుమిన్ ల్యాబ్స్’ అధ్యయనం బట్టబయలు చేసింది. గూగుల్, ఓపెన్ ఏఐ వంటి అంతర్జాతీయ దిగ్గజాల మోడళ్లు సైతం భారతీయ భాషలను పాఠకులకు స్పష్టంగా తెలియజేయడం(ట్రాన్స్క్రిప్షన్)లో విఫలమవుతున్నాయని ఈ నివేదిక తెలియజేస్తోంది.
మూడు పదాల్లో ఒకటి తప్పు
ఫిజికల్, వాయిస్ ఏఐ డేటా మౌలిక సదుపాయాల రంగంలో సర్వీసులు అందిస్తున్న హుమిన్ ల్యాబ్స్ అధ్యయనం ప్రకారం, ప్రసిద్ధ ఏఐ మోడళ్లు భారతీయ భాషలను వినేటప్పుడు ప్రతి మూడు పదాల్లో ఒకదాన్ని తప్పుగా అర్థం చేసుకుంటున్నాయి. ముఖ్యంగా భారతీయులు సహజంగా మాట్లాడే మిశ్రమ ప్రసంగం(ఇంగ్లీష్+హిందీ లేదా మరేదైనా భాష + ఇంగ్లీష్) విషయంలో ఈ సాధనాలు తడబడుతున్నాయి. వాక్యం మధ్యలో వచ్చే ఆంగ్ల పదాలను ఇవి పూర్తిగా వదిలేయడం లేదా తప్పుగా మార్చడం వల్ల అర్థం పూర్తిగా మారిపోతోంది.
‘ప్రస్తుత ఏఐ ప్రొవైడర్లు ఇంటర్నెట్ డేటాతో శిక్షణ పొందిన సెట్లను ఉపయోగించి తమకు తామే మార్కులు వేసుకుంటున్నారు. కానీ గ్లోబల్ సౌత్ (భారత్ వంటి దేశాలు) వినియోగదారులు వాస్తవంగా ఎలా మాట్లాడుతారో ఈ గణాంకాలు ప్రతిబింబించవు. అసంబద్ధమైన వివరాలు చూసి సంస్థలు నిర్ణయాలు తీసుకోవడం ఆందోళనకరం’ అని హుమిన్ ల్యాబ్స్ సహ వ్యవస్థాపకుడు మనీష్ అగర్వాల్ తెలిపారు.
బెంచ్ మార్క్ స్కోర్లు
హుమిన్ ల్యాబ్స్ రూపొందించిన ‘బ్రిడ్జ్’ అనే గ్లోబల్ ఎవాల్యుయేషన్ బెంచ్ మార్క్ ద్వారా పలు సంస్థల పనితీరును విశ్లేషించారు.
| ఏఐ మోడల్ / ప్రొవైడర్ | సెమాంటిక్ గ్యాప్ స్కోర్ (కచ్చితత్వం) | ప్రస్తుత పరిస్థితి |
|---|---|---|
| దీప్ గ్రామ్ నోవా-3 | 0.906 | ప్రస్తుతానికి అగ్రస్థానంలో ఉంది |
| సర్వం ఏఐ (సారస్ V3) | 20.2% (WER) | గ్లోబల్ మోడళ్ల కంటే మెరుగైన 3వ స్థానం |
| ఓపెన్ ఏఐ (GPT-4o) | < 0.4 | ఆశాజనకంగా లేదు |
| అమెజాన్ ట్రాన్స్ స్క్రైబ్ | 0.199 | అత్యంత బలహీనమైన ప్రదర్శన |
గమనిక: జెమిని 2.5 ఫ్లాష్, ఎలెవెన్ ల్యాబ్స్ వంటి టూల్స్ కూడా ఈ అధ్యయనంలో భాగంగా ఉన్నాయి.
స్వదేశీ టూల్స్ మెరుగైనప్పటికీ.. సవాళ్లు తప్పవు
భారతీయ స్టార్టప్ ‘సర్వం ఏఐ’ రూపొందించిన సారస్ వీ3, గూగుల్ జెమిని, మైక్రోసాఫ్ట్ అజూర్ వంటి దిగ్గజాల కంటే మెరుగైన ఫలితాలను చూపడం విశేషం. వర్డ్ ఎర్రర్ రేట్ (డబ్ల్యూఈఆర్) పరంగా ఇది 20.2 శాతంతో మూడో స్థానంలో నిలిచింది. అయితే, మిశ్రమ ప్రసంగం విషయానికి వస్తే ఇది కూడా 0.588 స్కోరులో నిలిచింది.
వర్డ్ ఎర్రర్ రేట్ కొలమానం సరిపోదు
పరిశ్రమలో సాధారణంగా వాడే వర్డ్ ఎర్రర్ రేట్ భారతీయ భాషల వైఫల్యాలను పట్టుకోవడంలో విఫలమవుతోందని హుమిన్ ల్యాబ్స్ సహ వ్యవస్థాపకుడు ఇశాంక్ గుప్తా అభిప్రాయపడ్డారు. ‘ఇంగ్లీష్ ఫోనాలజీ(భాషలో అర్థాన్ని ఎలా మారుతుంది అనే అంశాలను అధ్యయనం చేసే శాస్త్రాన్నే ఫోనాలజీ అంటారు) కోసం రూపొందించిన స్కోరింగ్ సిస్టమ్తో ఇండిక్ భాషలను మదింపు చేయడం సరికాదు. హిందీలో రాణించిన మోడల్ తెలుగులోనో, తమిళంలోనో రాణించాలని లేదు’ అని ఆయన పేర్కొన్నారు.


