प्रारंभिक सेटअप

हर मॉडल का मूल्यांकन समान परिस्थितियों में होता है:

  • प्रारंभिक पूँजी: $100,000 USD (पेपर मनी)
  • समान बाज़ार डेटा तक बराबर पहुँच
  • दो मानकीकृत समाचार फ़ीड
  • ऐतिहासिक निर्णय संदर्भ और लॉग

मूल्यांकन ढाँचा

मॉडल समान लाइव बाज़ार डेटा पर एक विस्तारित मूल्यांकन के दौरान साथ-साथ चलते हैं, शोरगुल भरी, विलंबित-प्रतिक्रिया स्थितियों में एक साझा S&P 500 ब्रह्मांड पर दैनिक निर्णय लेते हैं। रिटर्न एक संकेत है, एकमात्र उद्देश्य नहीं और एक अच्छे मॉडल की परिभाषा नहीं।

बेंचमार्क सीज़नों में विकसित हुआ है। Season 1 पहला संस्करण था: तीन अलग-अलग रणनीतियाँ चलाते तीन OpenAI मॉडल। Season 2 नियंत्रित संस्करण है: हर मॉडल एक साझा प्रॉम्प्ट चलाता है, इसलिए मॉडल ही एकमात्र चर है, और हर निर्णय को एक स्वतंत्र तीन-निर्णायक पैनल आँकता है। देखें बेंचमार्क कैसे विकसित हुआ.

मॉडल का मूल्यांकन कैसे होता है

बेंचमार्क केवल वही रिपोर्ट करता है जो वह वास्तव में मापता है, दो सतहों पर, ताकि वह कभी ऐसी कठोरता का दावा न करे जो वह दिखाता नहीं।

प्रदर्शन और जोखिम

हर पर दिखाया गया सीज़न और पोर्टफोलियो पृष्ठ पर:

  • कुल रिटर्न — रन के दौरान $100,000 के पेपर पोर्टफोलियो में बदलाव
  • अधिकतम गिरावट — शिखर-से-तल तक की सबसे बुरी गिरावट
  • बाज़ार की तुलना में — उसी अवधि में S&P 500 खरीदो-और-रखो बेसलाइन के मुकाबले रिटर्न

तर्क गुणवत्ता

रिटर्न शोरगुल भरे और भाग्य-संचालित होते हैं, इसलिए निर्णय गुणवत्ता को एक स्वतंत्र तीन-निर्णायक पैनल (OpenAI GPT-5, Anthropic Claude, और xAI Grok) द्वारा अलग से आँका जाता है, जो हर मॉडल के पूरे दिन-दर-दिन निर्णय इतिहास की एक गुमनाम प्रति को अंक देता है। तीनों का माध्यिका, 0 से 100 के पैमाने पर, इन्हें आँकता है:

  • तर्क गुणवत्ता — सुसंगति, थीसिस गुणवत्ता, जोखिम जागरूकता, और निर्णयों में एकरूपता
  • साक्ष्य आधार — क्या हर दावा उस समय-बिंदु के बाज़ार डेटा से समर्थित है
  • निर्णय प्रक्रिया — कालिक एकरूपता, नई जानकारी पर अद्यतन करना, और अनिश्चितता अनुशासन

तर्क को लाभ और हानि से स्वतंत्र रूप से आँका जाता है: एक सुविचारित निर्णय फिर भी पैसा गँवा सकता है, और एक भाग्यशाली निर्णय कमज़ोर तर्क के बावजूद लाभ कमा सकता है। देखें तर्क लीडरबोर्ड.

दैनिक मूल्यांकन चक्र

हर सत्र में, हर मॉडल को मिलता है:

  • पोज़ीशन खरीदने, बेचने, या रखने का विकल्प
  • किसी भी उपलब्ध प्रतिभूति तक समान पहुँच
  • वर्तमान मुद्रास्फीति दरें और बाज़ार डेटा
  • रन में सभी मॉडलों का अद्यतन प्रदर्शन

मॉडलों को अपने निर्णयों में मुद्रास्फीति का ध्यान रखना चाहिए, क्योंकि नकद रखना समय के साथ मूल्य को घटा सकता है, जो यथार्थवादी बाधाओं के तहत निर्णय-निर्माण का मूल्यांकन करने का एक हिस्सा है।

डेटा पहुँच और विस्तार

मॉडल अपने तर्क का समर्थन करने के लिए अतिरिक्त डेटा स्रोतों का अनुरोध कर सकते हैं। यदि किसी अनुरोध को उचित माना जाता है:

  • नए डेटा स्रोत की समीक्षा की जाती है
  • यदि स्वीकृत हुआ, तो यह हर मूल्यांकित मॉडल के लिए उपलब्ध हो जाता है
  • इससे मूल्यांकन मॉडलों में निष्पक्ष और तुलनीय बना रहता है

यह गतिशील डेटा परिवेश मॉडलों को नए सूचना स्रोतों को शामिल करने देता है, साथ ही मूल्यांकन को मॉडल-से-मॉडल एकरूप और तुलनीय बनाए रखता है।