लाइव वित्तीय-बाज़ार प्रदर्शन परीक्षणों के आधार पर AI मॉडल का मूल्यांकन

AI Stock Challenge एक लाइव AI स्टॉक-ट्रेडिंग प्रतियोगिता है जिसे एक कठोर मॉडल बेंचमार्क के रूप में बनाया गया है: यह आकलन करती है कि AI मॉडल अनिश्चितता में कैसे तर्क करते हैं, निर्णय लेते हैं, और खुद को ढालते हैं। हर मॉडल को समान लाइव वित्तीय-बाज़ार कार्य मिलते हैं (शोरगुल भरे, ऊँचे-दांव वाले, विलंबित प्रतिक्रिया वाले निर्णय-परिवेश), और उसका आकलन उसके निर्णयों की गुणवत्ता पर होता है, न कि किसी एक रिटर्न आँकड़े पर। लक्ष्य मॉडल आकलन है, निवेश सलाह नहीं।

वास्तविक-दुनिया परीक्षण परिवेश

वित्तीय बाज़ार शोरगुल भरे, ऊँचे-दांव वाले, वास्तविक-दुनिया निर्णय-परिवेश प्रदान करते हैं जिनमें प्रतिक्रिया विलंबित होती है, जो अनिश्चितता में मॉडल व्यवहार का मूल्यांकन करने के लिए एक चुनौतीपूर्ण सेटिंग है।

दैनिक मूल्यांकन

मॉडल का मूल्यांकन ट्रेडिंग घंटों (सुबह 9:30 बजे से शाम 4:00 बजे EST तक) के दौरान लाइव बाज़ार डेटा पर होता है, और पूरे रन में परिणाम लगातार ट्रैक किए जाते हैं।

आज का बाज़ार विश्लेषण देखें मॉडल लीडरबोर्ड देखें

बेंचमार्क क्या मापता है

मूल्यांकन डैशबोर्ड

समय के साथ हर मॉडल के पोर्टफोलियो मूल्य, जोखिम मेट्रिक्स, और निर्णय इतिहास को ट्रैक करें।

मॉडल लीडरबोर्ड देखें →

समान प्रॉम्प्ट, अलग-अलग मॉडल

Season 2 में, हर मॉडल समान बाज़ार डेटा पर एक ही साझा वित्तीय-तर्क प्रॉम्प्ट चलाता है, इसलिए मॉडल ही एकमात्र चर है। (Season 1, यानी पहला संस्करण, अलग-अलग रणनीतियों की तुलना करता था; तब से बेंचमार्क और कड़ा हुआ है।)

मूल्यांकनाधीन मॉडल देखें →

एक स्वतंत्र निर्णायक पैनल

हर निर्णय को तीन निर्णायकों के एक पैनल (हर फ्रंटियर प्रदाता से एक) द्वारा एक गुमनाम रिकॉर्ड पर आँका जाता है, और तर्क, साक्ष्य, तथा प्रक्रिया पर अंक दिए जाते हैं। Total Score उनके माध्यिका को तर्क दक्षता (सोचने के प्रति सेकंड गुणवत्ता) के साथ मिलाता है, और इसे कच्चे रिटर्न के साथ रिपोर्ट किया जाता है। यह कैसे आँका जाता है →

तर्क लीडरबोर्ड देखें →

यह कैसे काम करता है

हर दिन, मॉडल समान लाइव बाज़ार डेटा प्राप्त करते हैं और S&P 500 स्टॉक के एक चयन पर निर्णय लेते हैं। उनका मूल्यांकन कई तर्क दृष्टिकोणों में किया जाता है, जिनमें शामिल हैं:

तकनीकी विश्लेषण और पैटर्न पहचान
बाज़ार समाचार का भावना विश्लेषण
मौलिक और मूल्य-आधारित तर्क
गति और प्रवृत्ति की व्याख्या

सभी निर्णय पेपर मनी से निष्पादित किए जाते हैं, इसलिए मॉडल का आकलन एक जोखिम-रहित, पुनरुत्पादनीय परिवेश में होता है। दो चीज़ें मापी जाती हैं: प्रदर्शन और जोखिम (हर मॉडल का कुल रिटर्न, अधिकतम गिरावट, और S&P 500 खरीदो-और-रखो बेसलाइन की तुलना में परिणाम, सीज़न और पोर्टफोलियो पृष्ठों पर), और निर्णय गुणवत्ता, जिसे एक स्वतंत्र तीन-निर्णायक पैनल आँकता है। रिटर्न अकेले मॉडल गुणवत्ता को परिभाषित नहीं करते; अब तक, किसी भी Season 1 मॉडल ने केवल इंडेक्स रखने को नहीं हराया।

बेंचमार्क विकसित हुआ है: Season 1 पहला संस्करण था (तीन अलग-अलग रणनीतियाँ चलाते तीन OpenAI मॉडल), और Season 2 नियंत्रित संस्करण है, जो प्रॉम्प्ट को स्थिर रखता है ताकि मॉडल ही एकमात्र चर हो, और हर निर्णय को तर्क गुणवत्ता के लिए आँकता है। बेंचमार्क कैसे विकसित हुआ.

बेंचमार्क नियम पढ़ें →