गूगल फ्लू ट्रेंड्स

Google Flu Trends (GFT) Google द्वारा संचालित एक वेब सेवा थी। इसने 25 से अधिक देशों के लिए इंफ्लुएंजा  गतिविधि का अनुमान प्रदान किया। Google खोज प्रश्नों को एकत्रित करके, इसने फ़्लू गतिविधि के बारे में सटीक भविष्यवाणी करने का प्रयास किया। यह प्रोजेक्ट पहली बार 2008 में Google.org द्वारा फ्लू के प्रकोप की भविष्यवाणी करने में मदद के लिए शुरू किया गया था।

Google फ़्लू ट्रेंड्स ने 9 अगस्त 2015 को वर्तमान अनुमानों को प्रकाशित करना बंद कर दिया। ऐतिहासिक अनुमान अभी भी डाउनलोड के लिए उपलब्ध हैं, और वर्तमान डेटा घोषित अनुसंधान उद्देश्यों के लिए पेश किए जाते हैं।

इतिहास
Google Flu Trends के पीछे विचार यह था कि, लाखों उपयोगकर्ताओं के स्वास्थ्य ट्रैकिंग व्यवहारों की ऑनलाइन निगरानी करके, एकत्रित की गई बड़ी संख्या में Google खोज प्रश्नों का विश्लेषण यह प्रकट करने के लिए किया जा सकता है कि क्या जनसंख्या में फ़्लू जैसी बीमारी की उपस्थिति है। Google Flu Trends ने इन निष्कर्षों की तुलना इसके संबंधित क्षेत्र के लिए इन्फ्लूएंजा गतिविधि के एक ऐतिहासिक आधारभूत स्तर से की और फिर गतिविधि स्तर को न्यूनतम, निम्न, मध्यम, उच्च या तीव्र के रूप में रिपोर्ट किया। ये अनुमान आमतौर पर राष्ट्रीय और क्षेत्रीय स्तर पर स्वास्थ्य एजेंसियों द्वारा एकत्र किए गए पारंपरिक निगरानी डेटा के अनुरूप होते हैं।

Roni Zeiger ने Google Flu Trends को विकसित करने में सहायता की।

तरीके
Google Flu Trends को फ़्लू प्रवृत्तियों के बारे में जानकारी एकत्र करने के लिए निम्न विधि का उपयोग करने के रूप में वर्णित किया गया था। सबसे पहले, संयुक्त राज्य में 2003 से 2008 तक साप्ताहिक रूप से दर्ज लगभग 50 मिलियन सामान्य प्रश्नों के लिए एक समय श्रृंखला की गणना की जाती है। प्रत्येक राज्य के लिए एक क्वेरी की समय श्रृंखला की अलग-अलग गणना की जाती है और प्रत्येक क्वेरी की संख्या को संख्या से विभाजित करके एक अंश में सामान्यीकृत किया जाता है। उस स्थिति में सभी प्रश्न। प्रत्येक खोज से जुड़े आईपी पते की पहचान करके, जिस स्थिति में यह क्वेरी दर्ज की गई थी, उसे निर्धारित किया जा सकता है।

इन्फ्लुएंजा जैसी बीमारी (ILI) चिकित्सक की यात्रा के लॉग-ऑड्स और ILI- संबंधित खोज क्वेरी के लॉग-ऑड्स की गणना करने के लिए एक रेखीय मॉडल का उपयोग किया जाता है:
 * $$\operatorname{logit}(P) = \beta_0 + \beta_1 \times \operatorname{logit}(Q) + \epsilon$$

P ILI चिकित्सक की यात्रा का प्रतिशत है और Q पिछले चरणों में गणना की गई ILI से संबंधित क्वेरी अंश है। β0 अवरोधन है और β है1 गुणांक है, जबकि ε त्रुटि शब्द है।

50 मिलियन प्रश्नों में से प्रत्येक का क्यू के रूप में परीक्षण किया जाता है ताकि यह देखा जा सके कि एकल क्वेरी से गणना किए गए परिणाम यू.एस. सेंटर्स फॉर डिजीज कंट्रोल एंड प्रिवेंशन (सीडीसी) से प्राप्त वास्तविक इतिहास ILI डेटा से मेल खा सकते हैं या नहीं। यह प्रक्रिया शीर्ष प्रश्नों की एक सूची तैयार करती है जो रैखिक मॉडल का उपयोग करते समय सीडीसी आईएलआई डेटा का सबसे सटीक पूर्वानुमान देती है। फिर शीर्ष 45 प्रश्नों को चुना जाता है, क्योंकि जब एक साथ एकत्र किया जाता है, तो ये प्रश्न इतिहास डेटा को सबसे सटीक रूप से फिट करते हैं। शीर्ष 45 ILI- संबंधित प्रश्नों के योग का उपयोग करते हुए, रैखिक मॉडल को 2003 और 2007 के बीच साप्ताहिक ILI डेटा में फिट किया जाता है ताकि गुणांक प्राप्त किया जा सके। अंत में, संयुक्त राज्य अमेरिका में सभी क्षेत्रों में फ्लू के प्रकोप की भविष्यवाणी करने के लिए प्रशिक्षित मॉडल का उपयोग किया जाता है।

इस एल्गोरिथम को बाद में Google द्वारा आंशिक रूप से सटीकता के बारे में चिंताओं के जवाब में संशोधित किया गया है, और इसके परिणामों को दोहराने के प्रयासों ने सुझाव दिया है कि एल्गोरिथम डेवलपर्स को पहचाने गए वास्तविक खोज शब्दों को छिपाने की एक अस्पष्ट आवश्यकता महसूस हुई।

गोपनीयता संबंधी चिंताएँ
Google फ़्लू रुझान, खोज करने वाले व्यक्तियों की पहचान किए बिना, केवल लाखों अज्ञात खोज क्वेरी एकत्रित करके गोपनीयता उल्लंघन से बचने का प्रयास करता है. उनके खोज लॉग में उपयोगकर्ता का आईपी पता होता है, जिसका उपयोग उस क्षेत्र में वापस जाने के लिए किया जा सकता है जहां खोज क्वेरी मूल रूप से सबमिट की गई थी। Google डेटा तक पहुँचने और उसकी गणना करने के लिए कंप्यूटर पर प्रोग्राम चलाता है, इसलिए इस प्रक्रिया में कोई मानव शामिल नहीं है। Google ने 9 महीनों के बाद अपने खोज लॉग में IP पते को गुमनाम करने की नीति भी लागू की। हालांकि, Google Flu Trends ने कुछ निजता समूहों के बीच निजता संबंधी चिंताओं को उठाया है। इलेक्ट्रॉनिक गोपनीयता सूचना केंद्र और रोगी गोपनीयता अधिकारों ने 2008 में एरिक श्मिट को एक पत्र भेजा, जो तब Google के सीईओ थे। उन्होंने स्वीकार किया कि उपयोगकर्ता-जनित डेटा का उपयोग महत्वपूर्ण तरीकों से सार्वजनिक स्वास्थ्य प्रयासों का समर्थन कर सकता है, लेकिन उन्होंने चिंता व्यक्त की कि अदालत के आदेश या राष्ट्रपति के अधिकार से उपयोगकर्ता-विशिष्ट जांच को मजबूर किया जा सकता है, यहां तक ​​कि Google की आपत्ति पर भी।

प्रभाव
जीएफटी के लिए एक प्रारंभिक प्रेरणा यह थी कि बीमारी की गतिविधि को जल्दी पहचानने और जल्दी प्रतिक्रिया देने में सक्षम होने से मौसमी और महामारी इन्फ्लूएंजा के प्रभाव को कम किया जा सकता है। एक रिपोर्ट यह थी कि सीडीसी (रोग नियंत्रण और रोकथाम केंद्र) द्वारा रिपोर्ट किए जाने से 10 दिन पहले तक Google फ़्लू रुझान फ़्लू के क्षेत्रीय प्रकोपों ​​​​की भविष्यवाणी करने में सक्षम था। 2009 की फ्लू महामारी में Google Flu Trends ने संयुक्त राज्य अमेरिका में फ़्लू के बारे में जानकारी ट्रैक की। फरवरी 2010 में, सीडीसी ने संयुक्त राज्य अमेरिका के मध्य-अटलांटिक क्षेत्र में इन्फ्लूएंजा के बढ़ते मामलों की पहचान की। हालाँकि, फ़्लू के लक्षणों के बारे में खोज प्रश्नों का Google का डेटा सीडीसी रिपोर्ट जारी होने से दो सप्ताह पहले उसी स्पाइक को दिखाने में सक्षम था।

सीडीसी के इन्फ्लुएंजा प्रभाग में निगरानी के प्रमुख डॉ. लिन फिनेली ने कहा, "पहले की चेतावनी, पहले की रोकथाम और नियंत्रण उपायों को लागू किया जा सकता है, और यह इन्फ्लूएंजा के मामलों को रोक सकता है।" "देश की 5 से 20 प्रतिशत आबादी हर साल फ्लू का अनुबंध करती है, जिससे औसतन लगभग 36,000 मौतें होती हैं।"

Google फ़्लू रुझान सामूहिक बुद्धिमत्ता का एक उदाहरण है जिसका उपयोग रुझानों की पहचान करने और पूर्वानुमानों की गणना करने के लिए किया जा सकता है। खोज इंजनों द्वारा एकत्र किया गया डेटा महत्वपूर्ण रूप से व्यावहारिक है क्योंकि खोज क्वेरी लोगों की अनफ़िल्टर्ड चाहतों और ज़रूरतों का प्रतिनिधित्व करती है। एमआईटी में स्लोन स्कूल ऑफ मैनेजमेंट के प्रोफेसर थॉमस डब्ल्यू मालोन ने कहा, "यह डेटा का उपयोग करने का एक बहुत ही चतुर तरीका लगता है जो Google के उपयोगकर्ताओं द्वारा अनायास ही दुनिया में पैटर्न देखने के लिए बनाया गया है जो अन्यथा अदृश्य हो जाएगा।" "मुझे लगता है कि हम सामूहिक बुद्धिमत्ता के साथ जो संभव है उसकी सतह को खरोंच रहे हैं।"

सटीकता
शुरुआती Google पेपर में कहा गया है कि सीडीसी डेटा की तुलना में Google फ़्लू रुझान की भविष्यवाणी 97% सटीक थी। हालाँकि बाद की रिपोर्टों में दावा किया गया कि Google फ़्लू ट्रेंड्स की भविष्यवाणियाँ कभी-कभी बहुत गलत रही हैं - विशेष रूप से 2011-2013 के अंतराल में, जब इसने सापेक्ष फ़्लू की घटनाओं को लगातार बढ़ा-चढ़ाकर पेश किया, और 2012-2013 के फ़्लू सीज़न में एक से अधिक अंतराल में सीडीसी द्वारा दर्ज किए गए डॉक्टरों के दौरे की दोगुनी भविष्यवाणी की गई थी। 2022 का एक अध्ययन प्रकाशित (टिप्पणियों के साथ) इंटरनेशनल जर्नल ऑफ़ फोरकास्टिंग में पाया गया कि Google फ़्लू रुझान रीसेंसी ह्यूरिस्टिक द्वारा बेहतर प्रदर्शन कर रहा था, तथाकथित सरल पूर्वानुमान का एक उदाहरण, जहां अनुमानित फ़्लू घटना सबसे हाल ही में देखी गई फ़्लू घटना के बराबर है। 18 मार्च, 2007 से 9 अगस्त, 2015 तक के सभी सप्ताहों के लिए (वह क्षितिज जिसके लिए Google फ़्लू रुझान पूर्वानुमान उपलब्ध हैं), Google फ़्लू रुझान की औसत पूर्ण त्रुटि 0.38 थी और रीसेंसी ह्यूरिस्टिक 0.20 थी (दोनों प्रतिशत अंकों में; रैखिक प्रतिगमन एक एकल भविष्यवक्ता के साथ, सबसे हाल ही में देखी गई फ्लू की घटनाओं में 0.20 की औसत निरपेक्ष त्रुटि थी, और यादृच्छिक भविष्यवाणी के बेंचमार्क में 1.80 था)।

समस्याओं का एक स्रोत यह है कि फ़्लू-संबंधी Google खोज करने वाले लोगों को फ़्लू का निदान करने के तरीके के बारे में बहुत कम जानकारी हो सकती है; फ़्लू या फ़्लू के लक्षणों की खोज रोग के उन लक्षणों पर शोध करना हो सकता है जो फ़्लू से मिलते-जुलते हों, लेकिन वास्तव में फ़्लू नहीं हैं। इसके अलावा, कथित तौर पर Google द्वारा ट्रैक किए गए खोज शब्दों के विश्लेषण, जैसे कि बुखार और खांसी, साथ ही समय के साथ उनके खोज एल्गोरिदम में परिवर्तन के प्रभाव ने इसकी भविष्यवाणियों के अर्थ के बारे में चिंताएं बढ़ा दी हैं। 2013 के पतन में, Google ने समाचार में फ़्लू की प्रमुखता के कारण खोजों में वृद्धि की भरपाई करने का प्रयास करना शुरू किया, जो पहले विषम परिणामों के लिए पाया गया था। हालांकि, एक विश्लेषण ने निष्कर्ष निकाला है कि जीएफटी और लैग्ड सीडीसी डेटा के संयोजन के साथ-साथ जीएफटी को गतिशील रूप से पुनर्गणना करके, हम अकेले जीएफटी या सीडीसी के प्रदर्शन में काफी सुधार कर सकते हैं। एक बाद के अध्ययन से यह भी पता चलता है कि Google खोज डेटा का उपयोग वास्तव में अनुमानों को बेहतर बनाने के लिए किया जा सकता है, अकेले सीडीसी डेटा का उपयोग करने वाले मॉडल में देखी गई त्रुटियों को 52.7 प्रतिशत तक कम कर सकता है। मूल जीएफटी मॉडल का पुनर्मूल्यांकन करके, शोधकर्ताओं ने खुलासा किया कि मॉडल विभिन्न स्वास्थ्य स्थितियों के बारे में प्रश्नों को एकत्रित कर रहा था, जो कुछ ऐसा हो सकता है जो आईएलआई दरों की अधिक भविष्यवाणी कर सकता है; उसी कार्य में, ILI मॉडलिंग के लिए अधिक उन्नत रैखिक और अरैखिक बेहतर प्रदर्शन करने वाले दृष्टिकोणों की एक श्रृंखला प्रस्तावित की गई है। हालांकि, इन्फ्लूएंजा जैसी बीमारी की घटनाओं और मूल जीएफटी मॉडल के आउटपुट दोनों पर प्रशिक्षित एक यादृच्छिक वन प्रतिगमन मॉडल के उपयोग के माध्यम से अनुवर्ती कार्य जीएफटी की सटीकता में काफी सुधार करने में सक्षम था।

संबंधित सिस्टम
फ्लू-भविष्यवाणी परियोजना जैसी समान परियोजनाएं इंस्टीट्यूट ऑफ कॉग्निटिव साइंस ओस्नाब्रुक द्वारा सामाजिक मीडिया  डेटा को जोड़कर मूल विचार को आगे बढ़ाया गया। रोग नियंत्रण और रोकथाम डेटा केंद्रों के साथ ट्विटर, और संरचनात्मक मॉडल जो स्थानिक और लौकिक प्रसार का अनुमान लगाते हैं रोग का।