<address id="nzfpj"></address>
<noframes id="nzfpj">

    <form id="nzfpj"><th id="nzfpj"><progress id="nzfpj"></progress></th></form><noframes id="nzfpj"><address id="nzfpj"></address>
      北京物流信息聯盟

      混雜性 vs. 精確性 - MIT與經濟危機預測

      大數據小課堂 2021-10-28 11:12:19


      上節課提出“大數據”通常用概率說話,當我們試圖擴大數據規模的時候,要學會擁抱混亂。今天我們繼續分享兩個栗子,幫助大家了解大數據帶來的混雜性,以及混雜性所帶來的更大可能的精準度。


      第一個故事:MIT與經濟危機預測

      美國勞工統計局的人員每個月都要公布消費物價指數(CPI),這是用來測試通貨膨脹率的。這些數據對投資者和商家都非常重要。在決定是否增減銀行利率的時候,美聯儲也會考慮消費指數。一旦發生通貨膨脹,工人工資也會增加。聯邦政府在支付社會福利和債券利息的款項時,這項指數也是他們參考的依據。聯邦政府為了得到這些數據,會雇用很多人向全美90個城市的商店、辦公室打電話、發傳真甚至登門拜訪。他們反饋回來的各種各樣的價格信息達80000種,包括土豆的價格、出租車的票價等。政府采集這些數據每年大概需要花費兩億五千萬美元。這些數據是精確的也是有序的,但是這個采集結果的公布會有幾周的滯后。MIT的兩位經濟學家,Alberto Cavell?Oberto Rigobon提出了一個大數據方案:接受更混亂的數據,通過一個軟件在互聯網上收集信息,他們每天可以收集到50萬中商品的價格。收集到的數據很混亂,也不是所有數據都能輕易進行比較。但是把大數據和好的分析法相結合,這個項目在20089月雷曼兄弟破產之后馬上就發現了通貨緊縮趨勢,然而那些依賴官方數據的人直到11月份才知道這個情況。


      第二個故事:Flickr圖片標簽

      相片分享網站Flickr2011年擁有來自大概1億用戶的60億張照片。根據預先設定好的分類來標注每張照片非常困難,也非常局限。聰明的人們用更混亂卻靈活的機制取代了預設的清楚分類。當我們上傳照片到Flickr網站的時候,我們會給照片添加標簽。也就是說,我們會使用一組文本標簽來編組和搜索這些資源。人們用自己的方式創造和使用標簽,所以它是沒有標準、沒有預先設定的排列和分類,也沒有我們必須遵守的類別的。任何人都可以輸入新的標簽,標簽內容事實上就成為了網絡資源的分類標準。標簽被廣泛地應用于Facebook、博客等社交網絡上。因為它們的存在,互聯網上的資源變得更加容易找到,特別是像圖片、視頻和音樂這些無法用關鍵詞搜索的非文本類資源。當然,有時人們錯標的標簽會導致資源編組的不準確,這會讓習慣了精確性的人們很痛苦。但是,我們用來編組照片集的混亂方法給我們帶來了很多好處。比如,我們擁有了更加豐富的標簽內容,同時能更深更廣地獲得各種照片。我們可以通過合并多個搜索標簽來過濾我們需要尋找的照片,這在以前是無法完成的。


      關于混雜性和精確性就談到這里啦。

      今天的小問題:以下哪個省/直轄市的消費者對SKII更感興趣呢?

      A.湖北 B.四川 C.河南 D.山東

      AV一本大道香蕉大在线

      <address id="nzfpj"></address>
      <noframes id="nzfpj">

        <form id="nzfpj"><th id="nzfpj"><progress id="nzfpj"></progress></th></form><noframes id="nzfpj"><address id="nzfpj"></address>