OpenAI ने आधिकारिक रूप से IndQA (इंडक्यूए) नामक एक नया बहुभाषी और संस्कृति-संवेदनशील बेंचमार्क लॉन्च किया है, जो यह मूल्यांकन करने के लिए बनाया गया है कि एआई मॉडल भारतीय भाषाओं और सांस्कृतिक संदर्भों में आधारित प्रश्नों को कितनी प्रभावी ढंग से समझ और विश्लेषण कर सकते हैं।
यह पहल 4 नवंबर 2025 को जारी की गई और यह OpenAI का पहला क्षेत्र-विशिष्ट (region-specific) बेंचमार्क है। इसका उद्देश्य भारत की भाषाई विविधता, सांस्कृतिक सूक्ष्मताओं और संदर्भगत समझ को मापना है। भारत, ChatGPT के लिए OpenAI का दूसरा सबसे बड़ा उपयोगकर्ता बाजार है।
IndQA का पूरा नाम Indian Question-Answering Benchmark है।
इसमें फिलहाल 2,278 प्रश्न शामिल हैं, जो 11 भारतीय भाषाओं में तैयार किए गए हैं —
हिन्दी, हिंग्लिश, गुजराती, पंजाबी, कन्नड़, उड़िया, मराठी, मलयालम, तमिल, बंगाली और तेलुगु।
यह बेंचमार्क 10 सांस्कृतिक क्षेत्रों (domains) को कवर करता है —
कानून और नैतिकता
वास्तुकला और डिजाइन
भोजन और पाक-परंपरा
दैनिक जीवन
धर्म और आध्यात्मिकता
खेल और मनोरंजन
साहित्य और भाषाविज्ञान
मीडिया और मनोरंजन
कला और संस्कृति
इतिहास
IndQA का विकास 261 विशेषज्ञों — जिनमें विद्वान, पत्रकार, भाषाविद, कलाकार और विषय-विशेषज्ञ शामिल थे — की सहभागिता से किया गया है।
IndQA का मूल्यांकन एक रूब्रिक-आधारित (rubric-based) ग्रेडिंग सिस्टम पर आधारित है।
प्रत्येक प्रश्न के लिए विशेषज्ञों द्वारा परिभाषित मानदंड तय किए गए हैं।
हर मानदंड को उसकी प्रासंगिकता और महत्व के अनुसार अंक (weighted points) दिए जाते हैं।
एक मॉडल-आधारित ग्रेडर एआई मॉडल के उत्तरों की तुलना इन मानदंडों से करता है और अंतिम स्कोर निर्धारित करता है।
सभी प्रश्नों का परीक्षण OpenAI के सबसे शक्तिशाली मॉडलों — GPT-4o, GPT-4.5, GPT-5 और OpenAI o3 — पर किया गया, ताकि यह सुनिश्चित किया जा सके कि बेंचमार्क adversarial robustness (चुनौतीपूर्ण प्रश्नों के प्रति मजबूती) रखता है।
| मॉडल | कुल प्रदर्शन (%) |
|---|---|
| GPT-5 (Thinking High) | 34.9 (सर्वोच्च) |
| Gemini 2.5 Pro Thinking | 34.3 |
| Gemini 2.5 Flash Thinking | 29.7 |
| Grok 4 | 28.5 |
| OpenAI o3 High | 28.1 |
| GPT-4o | 20.3 |
| GPT-4 Turbo | 12.1 |
सर्वश्रेष्ठ प्रदर्शन: हिन्दी (45%) और हिंग्लिश (44%) में GPT-5 ने किया।
सबसे कम प्रदर्शन: बंगाली और तेलुगु, जो इन लिपियों में मौजूदा एआई मॉडलों की सीमाओं को दर्शाता है।
OpenAI ने स्पष्ट किया है कि IndQA कोई क्रॉस-लैंग्वेज लीडरबोर्ड नहीं है, क्योंकि हर भाषा के प्रश्न अलग हैं। बल्कि यह एक within-model benchmark है, जिसका उपयोग समय के साथ एक ही मॉडल की प्रगति मापने के लिए किया जाएगा।
[wp-faq-schema title="FAQs" accordion=1]क्या आप जानते हैं कि पश्चिम एशिया में स्थित एक बहुत संकीर्ण समुद्री मार्ग वैश्विक…
प्रधानमंत्री नरेंद्र मोदी ने तिरुचिरापल्ली, तमिलनाडु में लगभग ₹5,600 करोड़ की विभिन्न विकास परियोजनाओं का…
भारत और पाकिस्तान ने अपनी रणनीतिक प्रतिरोधक क्षमता (Strategic Deterrence) को मजबूत करने के लिए…
अंतर्राष्ट्रीय ऊर्जा एजेंसी (IEA) ने अपने इतिहास में सबसे बड़ी आपातकालीन तेल रिलीज़ की घोषणा…
भारत सरकार ने वित्त वर्ष 2022-23, 2023-24 और 2024-25 के लिए राजकोषीय घाटे (Fiscal Deficit)…
स्मृति मंधाना ने नवीनतम ICC महिला वनडे बल्लेबाजी रैंकिंग में अपना नंबर-1 स्थान बरकरार रखा…