गूगल फ्लू ट्रेंड्स

गूगल फ्लू ट्रेंड्स (जीएफटी) गूगल द्वारा संचालित एक वेब सेवा थी। इसने 25 से अधिक देशों के लिए इंफ्लुएंजा गतिविधि का अनुमान आदान प्रदान किया। गूगल खोज प्रश्नों को एकत्रित करके, इसने फ़्लू गतिविधि के बारे में सटीक पूर्वसंकल्पना करने का प्रयास किया। यह प्रोजेक्ट पहली बार 2008 में google.org द्वारा फ्लू के प्रकोप की पूर्वसंकल्पना करने में मदद के लिए प्रारम्भ किया गया था।

गूगल फ़्लू ट्रेंड्स ने 9 अगस्त 2015 को वर्तमान अनुमानों को प्रकाशित करना बंद कर दिया। ऐतिहासिक अनुमान अभी भी डाउनलोड के लिए उपलब्ध हैं, और वर्तमान डेटा घोषित अनुसंधान उद्देश्यों के लिए प्रस्तुत किए जाते हैं।

इतिहास
गूगल फ्लू ट्रेंड्स के पीछे विचार यह था कि लाखों उपयोगकर्ताओं के स्वास्थ्य ट्रैकिंग व्यवहारों की ऑनलाइन निगरानी करके एकत्रित की गई बड़ी संख्या में गूगल खोज प्रश्नों का विश्लेषण यह प्रकट करने के लिए किया जा सकता है कि क्या जनसंख्या में फ़्लू जैसी बीमारी की उपस्थिति है। गूगल फ्लू ट्रेंड्स ने इन निष्कर्षों की तुलना इसके संबंधित क्षेत्र के लिए इन्फ्लूएंजा गतिविधि के एक ऐतिहासिक आधारभूत स्तर से की और फिर गतिविधि स्तर को न्यूनतम, निम्न, मध्यम, उच्च या तीव्र के रूप में रिपोर्ट किया। ये अनुमान सामान्यतः राष्ट्रीय और क्षेत्रीय स्तर पर स्वास्थ्य एजेंसियों द्वारा एकत्र किए गए पारंपरिक निगरानी डेटा के अनुरूप होते हैं।

रोनी ज़ीगर ने गूगल फ्लू ट्रेंड्स को विकसित करने में सहायता की।

पद्यतियां
गूगल फ्लू ट्रेंड्स को फ़्लू प्रवृत्तियों के बारे में जानकारी एकत्र करने के लिए निम्न विधि का उपयोग करने के रूप में वर्णित किया गया था। सबसे पहले, संयुक्त राज्य में 2003 से 2008 तक साप्ताहिक रूप से दर्ज लगभग 50 मिलियन सामान्य प्रश्नों के लिए एक समय श्रृंखला की गणना की जाती है। प्रत्येक राज्य के लिए एक क्वेरी की समय श्रृंखला की अलग-अलग गणना की जाती है और प्रत्येक क्वेरी की संख्या को संख्या से विभाजित करके एक अंश में सामान्यीकृत किया जाता है। गूगल खोज प्रश्नों को एकत्रित करके, इसने फ़्लू गतिविधि के बारे में सटीक पूर्वसंकल्पना करने का प्रयास किया। उस स्थिति में सभी प्रश्न प्रत्येक खोज से जुड़े आईपी एड्रेस की पहचान करके, जिस स्थिति में यह क्वेरी दर्ज की गई थी, उसे निर्धारित किया जा सकता है।

इन्फ्लुएंजा जैसी बीमारी (आईएलआई) चिकित्सक की निरीक्षण के लॉग-ऑड्स और आईएलआई संबंधित खोज क्वेरी के लॉग-ऑड्स की गणना करने के लिए एक रेखीय मॉडल का उपयोग किया जाता है:
 * $$\operatorname{logit}(P) = \beta_0 + \beta_1 \times \operatorname{logit}(Q) + \epsilon$$

P आईएलआई चिकित्सक की निरीक्षण का प्रतिशत है और Q पिछले चरणों में गणना की गई आईएलआई से संबंधित क्वेरी अंश है। β0 अवरोधन है और β1 गुणांक है, जबकि ε त्रुटि शब्द है।

50 मिलियन प्रश्नों में से प्रत्येक का क्यू के रूप में परीक्षण किया जाता है ताकि यह देखा जा सके कि एकल क्वेरी से गणना किए गए परिणाम यू.एस. सेंटर्स फॉर डिजीज कंट्रोल एंड प्रिवेंशन (सीडीसी) से प्राप्त वास्तविक इतिहास आईएलआई डेटा से समानता रखता सकते हैं या नहीं। यह प्रक्रिया शीर्ष प्रश्नों की एक सूची तैयार करती है जो रैखिक मॉडल का उपयोग करते समय सीडीसी आईएलआई डेटा का सबसे सटीक पूर्वानुमान देती है। फिर शीर्ष 45 प्रश्नों को चुना जाता है, क्योंकि जब एक साथ एकत्र किया जाता है, तो ये प्रश्न इतिहास डेटा को सबसे सटीक रूप से फिट करते हैं। शीर्ष 45 आईएलआई- संबंधित प्रश्नों के योग का उपयोग करते हुए, रैखिक मॉडल को 2003 और 2007 के बीच साप्ताहिक आईएलआई डेटा में फिट किया जाता है ताकि गुणांक प्राप्त किया जा सके। अंत में, संयुक्त राज्य अमेरिका में सभी क्षेत्रों में फ्लू के प्रकोप की पूर्वसंकल्पना करने के लिए प्रशिक्षित मॉडल का उपयोग किया जाता है।

इस एल्गोरिथम को बाद में गूगल द्वारा आंशिक रूप से सटीकता के बारे में चिंताओं के जवाब में संशोधित किया गया है, और इसके परिणामों को दोहराने के प्रयासों ने सुझाव दिया है कि एल्गोरिथम डेवलपर्स को पहचाने गए वास्तविक खोज शब्दों को छिपाने की एक अस्पष्ट आवश्यकता महसूस हुई।

गोपनीयता संबंधी चिंताएँ
गूगल फ़्लू ट्रेंड्स, खोज करने वाले व्यक्तियों की पहचान किए बिना केवल लाखों अज्ञात खोज क्वेरी एकत्रित करके गोपनीयता उल्लंघन से बचने का प्रयास करता है। उनके खोज लॉग में उपयोगकर्ता का आईपी एड्रेस होता है, जिसका उपयोग उस क्षेत्र में वापस जाने के लिए किया जा सकता है जहां खोज क्वेरी मूल रूप से सबमिट की गई थी। गूगल डेटा तक पहुँचने और उसकी गणना करने के लिए कंप्यूटर पर प्रोग्राम चलाता है, इसलिए इस प्रक्रिया में कोई मानव सम्मिलित नहीं है। गूगल ने 9 महीनों के बाद अपने खोज लॉग में आईपी एड्रेस को गुमनाम करने की नीति भी लागू की। हालांकि गूगल फ्लू ट्रेंड्स ने कुछ निजता समूहों के बीच निजता संबंधी चिंताओं को उठाया है। इलेक्ट्रॉनिक गोपनीयता सूचना केंद्र और रोगी गोपनीयता अधिकारों ने 2008 में एरिक श्मिट को एक पत्र भेजा, जो तब गूगल के सीईओ थे। उन्होंने स्वीकार किया कि उपयोगकर्ता-जनित डेटा का उपयोग महत्वपूर्ण तरीकों से सार्वजनिक स्वास्थ्य प्रयासों का समर्थन कर सकता है, लेकिन उन्होंने चिंता व्यक्त की कि अदालत के आदेश या राष्ट्रपति के अधिकार से उपयोगकर्ता-विशिष्ट जांच यहां तक ​​कि गूगल की आपत्ति पर भी मजबूर किया जा सकता है। अंत में, संयुक्त राज्य अमेरिका में सभी क्षेत्रों में फ्लू के प्रकोप की पूर्वसंकल्पना करने के लिए प्रशिक्षित मॉडल का उपयोग किया जाता है।

प्रभाव
जीएफटी के लिए एक प्रारंभिक प्रेरणा यह थी कि बीमारी की गतिविधि को जल्दी पहचानने और जल्दी प्रतिक्रिया देने में सक्षम होने से मौसमी और महामारी इन्फ्लूएंजा के प्रभाव को कम किया जा सकता है। एक रिपोर्ट यह थी कि सीडीसी (रोग नियंत्रण और रोकथाम केंद्र) द्वारा रिपोर्ट किए जाने से 10 दिन पहले तक गूगल फ़्लू ट्रेंड्स फ़्लू के क्षेत्रीय प्रकोपों ​​​​की पूर्वसंकल्पना करने में सक्षम था। 2009 की फ्लू महामारी में गूगल फ्लू ट्रेंड्स ने संयुक्त राज्य अमेरिका में फ़्लू के बारे में जानकारी ट्रैक की। फरवरी 2010 में, सीडीसी ने संयुक्त राज्य अमेरिका के मध्य-अटलांटिक क्षेत्र में इन्फ्लूएंजा के बढ़ते प्रकरणों की पहचान की। हालाँकि, फ़्लू के लक्षणों के बारे में खोज प्रश्नों का गूगल का डेटा सीडीसी रिपोर्ट जारी होने से दो सप्ताह पहले उसी स्पाइक को दिखाने में सक्षम था।

सीडीसी के इन्फ्लुएंजा प्रभाग में निगरानी के प्रमुख डॉ. लिन फिनेली ने कहा, "पहले की चेतावनी, पहले की रोकथाम और नियंत्रण उपायों को लागू किया जा सकता है, और यह इन्फ्लूएंजा के प्रकरणों को रोक सकता है।" "देश की 5 से 20 प्रतिशत आबादी हर साल फ्लू का अनुबंध करती है, जिससे औसतन लगभग 36,000 मौतें होती हैं।"

गूगल फ़्लू ट्रेंड्स सामूहिक बुद्धिमत्ता का एक उदाहरण है जिसका उपयोग ट्रेंड्सों की पहचान करने और पूर्वानुमानों की गणना करने के लिए किया जा सकता है। खोज इंजनों द्वारा एकत्र किया गया डेटा महत्वपूर्ण रूप से व्यावहारिक है क्योंकि खोज क्वेरी लोगों की अनफ़िल्टर्ड चाहतों और ज़रूरतों का प्रतिनिधित्व करती है। एमआईटी में स्लोन स्कूल ऑफ मैनेजमेंट के प्रोफेसर थॉमस डब्ल्यू मालोन ने कहा, "यह डेटा का उपयोग करने का एक बहुत ही चतुर तरीका लगता है जो गूगल के उपयोगकर्ताओं द्वारा अनायास ही दुनिया में पैटर्न देखने के लिए बनाया गया है जो अन्यथा अदृश्य हो जाएगा।" "मुझे लगता है कि हम सामूहिक बुद्धिमत्ता के साथ जो संभव है उसकी सतह को खरोंच रहे हैं।"

सटीकता
शुरुआती गूगल पेपर में कहा गया है कि सीडीसी डेटा की तुलना में गूगल फ़्लू ट्रेंड्स की पूर्वसंकल्पना 97% सटीक थी। हालाँकि बाद की रिपोर्टों में दावा किया गया कि गूगल फ़्लू ट्रेंड्स की पूर्वसंकल्पनाएं कभी-कभी बहुत गलत रही हैं - विशेष रूप से 2011-2013 के अंतराल में, जब इसने सापेक्ष फ़्लू की घटनाओं को लगातार बढ़ा-चढ़ाकर प्रस्तुत किया, और 2012-2013 के फ़्लू सीज़न में एक से अधिक अंतराल में सीडीसी द्वारा दर्ज किए गए डॉक्टरों के दौरे की दोगुनी पूर्वसंकल्पना की गई थी। 2022 का एक अध्ययन प्रकाशित (टिप्पणियों के साथ) इंटरनेशनल जर्नल ऑफ़ फोरकास्टिंग में पाया गया कि गूगल फ़्लू ट्रेंड्स रीसेंसी ह्यूरिस्टिक द्वारा बेहतर प्रदर्शन कर रहा था, तथाकथित सरल पूर्वानुमान का एक उदाहरण, जहां अनुमानित फ़्लू घटना सबसे हाल ही में देखी गई फ़्लू घटना के बराबर है। 18 मार्च, 2007 से 9 अगस्त, 2015 तक के सभी सप्ताहों के लिए (वह क्षितिज जिसके लिए गूगल फ़्लू ट्रेंड्स पूर्वानुमान उपलब्ध हैं), गूगल फ़्लू ट्रेंड्स की औसत पूर्ण त्रुटि 0.38 थी और रीसेंसी ह्यूरिस्टिक 0.20 थी। दोनों प्रतिशत अंकों में; रैखिक प्रतिगमन एक एकल भविष्यवक्ता के साथ, सबसे हाल ही में देखी गई फ्लू की घटनाओं में 0.20 की औसत निरपेक्ष त्रुटि थी, खोज इंजनों द्वारा एकत्र किया गया डेटा महत्वपूर्ण रूप से व्यावहारिक है और यादृच्छिक पूर्वसंकल्पना के बेंचमार्क में 1.80 था।

समस्याओं का एक स्रोत यह है कि फ़्लू-संबंधी गूगल खोज करने वाले लोगों को फ़्लू का निदान करने के तरीके के बारे में बहुत कम जानकारी हो सकती है; फ़्लू या फ़्लू के लक्षणों की खोज रोग के उन लक्षणों पर शोध करना हो सकता है जो फ़्लू से मिलते-जुलते हों, लेकिन वास्तव में फ़्लू नहीं हैं। इसके अलावा, कथित तौर पर गूगल द्वारा ट्रैक किए गए खोज शब्दों के विश्लेषण जैसे कि बुखार और खांसी साथ ही समय के साथ उनके खोज एल्गोरिदम में परिवर्तन के प्रभाव ने इसकी पूर्वसंकल्पनाओं के अर्थ के बारे में चिंताएं बढ़ा दी हैं। 2013 के पतन में, गूगल ने समाचार में फ़्लू की प्रमुखता के कारण खोजों में वृद्धि की भरपाई करने का प्रयास करना प्रारम्भ किया, जो पहले विषम परिणामों के लिए पाया गया था। हालांकि, एक विश्लेषण ने निष्कर्ष निकाला है कि जीएफटी और लैग्ड सीडीसी डेटा के संयोजन के साथ-साथ जीएफटी को गतिशील रूप से पुनर्गणना करके हम अकेले जीएफटी या सीडीसी के प्रदर्शन में काफी सुधार कर सकते हैं। एक बाद के अध्ययन से यह भी पता चलता है कि गूगल खोज डेटा का उपयोग वास्तव में अनुमानों को बेहतर बनाने के लिए किया जा सकता है, अकेले सीडीसी डेटा का उपयोग करने वाले मॉडल में देखी गई त्रुटियों को 52.7 प्रतिशत तक कम कर सकता है। मूल जीएफटी मॉडल का पुनर्मूल्यांकन करके, शोधकर्ताओं ने खुलासा किया कि मॉडल विभिन्न स्वास्थ्य स्थितियों के बारे में प्रश्नों को एकत्रित कर रहा था, जो कुछ ऐसा हो सकता है जो आईएलआई दरों की अधिक पूर्वसंकल्पना कर सकता है; उसी कार्य में, आईएलआई मॉडलिंग के लिए अधिक उन्नत रैखिक और अरैखिक बेहतर प्रदर्शन करने वाले दृष्टिकोणों की एक श्रृंखला प्रस्तावित की गई है। हालांकि, इन्फ्लूएंजा जैसी बीमारी की घटनाओं और मूल जीएफटी मॉडल के आउटपुट दोनों पर प्रशिक्षित एक यादृच्छिक वन प्रतिगमन मॉडल के उपयोग के माध्यम से अनुवर्ती कार्य जीएफटी की सटीकता में काफी सुधार करने में सक्षम था।

संबंधित सिस्टम
फ्लू-पूर्वसंकल्पना परियोजना जैसी समान परियोजनाएं इंस्टीट्यूट ऑफ कॉग्निटिव साइंस ओस्नाब्रुक द्वारा सामाजिक मीडिया डेटा को जोड़कर मूल विचार को आगे बढ़ाया गया। रोग नियंत्रण और रोकथाम डेटा केंद्रों के साथ ट्विटर, और संरचनात्मक मॉडल जो स्थानिक रोग का और लौकिक प्रसार का अनुमान लगाते हैं।