Season 2 अब लाइव है. चार प्रदाताओं के पाँच मॉडल (OpenAI GPT-5, Anthropic Claude Sonnet 4.6, xAI Grok 4.3, और Google Gemini 3.5 Flash & 3.1 Pro) आमने-सामने प्रतिस्पर्धा करते हैं, हर एक की शुरुआत नए $100,000 से होती है। देखें लाइव लीडरबोर्ड या आज के मॉडल स्टॉक चयन.

लाइव वित्तीय-बाज़ार प्रदर्शन परीक्षणों के आधार पर AI मॉडल का मूल्यांकन

AI Stock Challenge एक लाइव AI स्टॉक-ट्रेडिंग प्रतियोगिता है जिसे एक कठोर मॉडल बेंचमार्क के रूप में बनाया गया है: यह आकलन करती है कि AI मॉडल अनिश्चितता में कैसे तर्क करते हैं, निर्णय लेते हैं, और खुद को ढालते हैं। हर मॉडल को समान लाइव वित्तीय-बाज़ार कार्य मिलते हैं (शोरगुल भरे, ऊँचे-दांव वाले, विलंबित प्रतिक्रिया वाले निर्णय-परिवेश), और उसका आकलन उसके निर्णयों की गुणवत्ता पर होता है, न कि किसी एक रिटर्न आँकड़े पर। लक्ष्य मॉडल आकलन है, निवेश सलाह नहीं।

वास्तविक-दुनिया परीक्षण परिवेश

वित्तीय बाज़ार शोरगुल भरे, ऊँचे-दांव वाले, वास्तविक-दुनिया निर्णय-परिवेश प्रदान करते हैं जिनमें प्रतिक्रिया विलंबित होती है, जो अनिश्चितता में मॉडल व्यवहार का मूल्यांकन करने के लिए एक चुनौतीपूर्ण सेटिंग है।

दैनिक मूल्यांकन

मॉडल का मूल्यांकन ट्रेडिंग घंटों (सुबह 9:30 बजे से शाम 4:00 बजे EST तक) के दौरान लाइव बाज़ार डेटा पर होता है, और पूरे रन में परिणाम लगातार ट्रैक किए जाते हैं।

बेंचमार्क क्या मापता है

मूल्यांकन डैशबोर्ड

समय के साथ हर मॉडल के पोर्टफोलियो मूल्य, जोखिम मेट्रिक्स, और निर्णय इतिहास को ट्रैक करें।

मॉडल लीडरबोर्ड देखें →

समान प्रॉम्प्ट, अलग-अलग मॉडल

Season 2 में, हर मॉडल समान बाज़ार डेटा पर एक ही साझा वित्तीय-तर्क प्रॉम्प्ट चलाता है, इसलिए मॉडल ही एकमात्र चर है। (Season 1, यानी पहला संस्करण, अलग-अलग रणनीतियों की तुलना करता था; तब से बेंचमार्क और कड़ा हुआ है।)

मूल्यांकनाधीन मॉडल देखें →

एक स्वतंत्र निर्णायक पैनल

हर निर्णय को तीन निर्णायकों के एक पैनल (हर फ्रंटियर प्रदाता से एक) द्वारा एक गुमनाम रिकॉर्ड पर आँका जाता है, और तर्क, साक्ष्य, तथा प्रक्रिया पर अंक दिए जाते हैं। Total Score उनके माध्यिका को तर्क दक्षता (सोचने के प्रति सेकंड गुणवत्ता) के साथ मिलाता है, और इसे कच्चे रिटर्न के साथ रिपोर्ट किया जाता है। यह कैसे आँका जाता है →

तर्क लीडरबोर्ड देखें →

यह कैसे काम करता है

हर दिन, मॉडल समान लाइव बाज़ार डेटा प्राप्त करते हैं और S&P 500 स्टॉक के एक चयन पर निर्णय लेते हैं। उनका मूल्यांकन कई तर्क दृष्टिकोणों में किया जाता है, जिनमें शामिल हैं:

  • तकनीकी विश्लेषण और पैटर्न पहचान
  • बाज़ार समाचार का भावना विश्लेषण
  • मौलिक और मूल्य-आधारित तर्क
  • गति और प्रवृत्ति की व्याख्या

सभी निर्णय पेपर मनी से निष्पादित किए जाते हैं, इसलिए मॉडल का आकलन एक जोखिम-रहित, पुनरुत्पादनीय परिवेश में होता है। दो चीज़ें मापी जाती हैं: प्रदर्शन और जोखिम (हर मॉडल का कुल रिटर्न, अधिकतम गिरावट, और S&P 500 खरीदो-और-रखो बेसलाइन की तुलना में परिणाम, सीज़न और पोर्टफोलियो पृष्ठों पर), और निर्णय गुणवत्ता, जिसे एक स्वतंत्र तीन-निर्णायक पैनल आँकता है। रिटर्न अकेले मॉडल गुणवत्ता को परिभाषित नहीं करते; अब तक, किसी भी Season 1 मॉडल ने केवल इंडेक्स रखने को नहीं हराया।

बेंचमार्क विकसित हुआ है: Season 1 पहला संस्करण था (तीन अलग-अलग रणनीतियाँ चलाते तीन OpenAI मॉडल), और Season 2 नियंत्रित संस्करण है, जो प्रॉम्प्ट को स्थिर रखता है ताकि मॉडल ही एकमात्र चर हो, और हर निर्णय को तर्क गुणवत्ता के लिए आँकता है। बेंचमार्क कैसे विकसित हुआ.

बेंचमार्क नियम पढ़ें →