1、老去的MongoDB,未來在哪裡?
大概六年前,在為ZDNet撰寫文章時,我們曾經認真思考過一個問題:MongoDB未來要走向何方?隨著時間推移,答案已經逐漸浮出水面:要讓資料庫更具可擴展性,支持開發者編寫好的各種應用程序。為此,MongoDB增加了原生搜索哪轎功能,以支持內容管理;物聯網用例也獲得了時序數據支持;另外還有變更流,可幫助電商應用快速預滾蠢測出下一最佳行動。
順帶一說,MongoDB的客戶還需要一種能夠與開發工具良好匹配、易於上手的雲解決方案。 結果就是Atlas,這項託管雲服務目前佔MongoDB整體業務的60%。
但平心而論,與大多數其他操作型資料庫一樣,MongoDB直到最近才剛剛得到重視。畢竟大家可能很難想像要在一套操作型資料庫中,執行涵蓋多個表(或文檔集合)的復雜查詢。
— 1 —
為什麼要引入分析?
大多數操作型應用程序的共同之處是一旦添加了分析功能,其實用性將馬上飛升。例如,分析可以幫助 汽車 製造商增強預防性維護,醫療保健服務商能夠確定最佳護理方案,電子商務或 游戲 廠商則可以改善客戶交互、防止大緩陪客戶流失。這些出於決策優化而設計出的分析功能,是對操作型資料庫的良好補充。
把分析跟交易型資料庫聯系起來絕不是什麼新鮮想法,HTAP、translytical或增強型交易資料庫都是分析廠商們拿出的相應成果。
雲原生提出的計算與存儲彼此分離的理念,則讓我們有了另一個在不影響性能或吞吐量的情況下、將操作數據處理與分析加以結合的好機會。 最近亮相的Oracle MySQL HeatWaev和谷歌AlloyDB,正是大廠在這個方向上的積極嘗試。
大多數此類混合資料庫都會使用專為分析而設計的柱狀表,對傳統行存儲進行補充。順帶一提,它們也都使用相同的常見關系數據結構,確保轉換更加簡便易行。與之對應,如果引入包含分層和嵌套數據結構的文檔模型,那麼轉譯過程往往會更加困難。
那麼,MongoDB是不是也該擁有自己的分析功能?這還是要看我們如何定義「分析」。如前所述,如果我們向交易中引入智能化操作分析,那麼應用程序的實用性將大大增強。所以只要把范圍設定在快速決策分析,而非復雜的分析建模,那麼答案就是肯定的。
— 2 —
無法一蹴而就的事業
MongoDB已經開始嘗試支持分析功能。它從可視化開始,著手提供自己的圖表功能與商務智能(BI)連接器,現在的MongoDB在Tableaus與Qliks端看來已經幾乎與MySQL無異。雖然一圖勝萬言,但對於分析來說,可視化還只是萬里長征第一步。MongoDB盡管能提供趨勢快照,但還無法進一步實現數據關聯(往往涉及更復雜的查詢),也無法完全回答「為什麼」會出現哪些狀況。
MongoDB決心已定,開始通過分析提升自身競爭力。但在這個分析復雜度愈發高企的時代,它顯然無法取代Snowflake、Redshift、Databricks或者其他專業分析方案。 但MongoDB分析面向的也並非數據分析師,而是應用程序開發者。 回到操作型資料庫的首要原則——盡量別把它,跟需要高度復雜的連接及/或高並發查詢扯在一起。只要能讓開發者構建起更好的應用程序,MongoDB就算是成功了。
Atlas能夠靈活預留專門的分析節點。MongoDB也將在不久後,全面允許客戶在更適合分析的節點上選擇不同的計算實例。這些節點將提供在線數據復制功能,藉此實現近實時分析。
但這還只是第一步:由於Atlas可運行在多種雲環境上,因此客戶還可以選擇更多其他實例。不過大家無需擔心,MongoDB未來將推出規范性指南,同時提供機器學習方案幫助大家自動選擇最適應工作負載的實例類型。
對分析的嘗試當然不可能止步於此,去年預覽發布的Atlas Serverless將於本周推出正式版。剛剛起步的分析自然也將成為受益者,因為分析類工作負載一般與交易事務不同、突發峰值往往更多。
— 3 —
有沒有可能對接SQL?
其實引入SQL的想法在MongoDB發展早期一直備受反對,當時有聲音認為MongoDB永遠不該成為關系資料庫。但是,理性終將戰勝情緒。
本周,MongoDB引入了新的Atlas SQL介面,可用於讀取Atlas數據。這是一種全新結構,採用不同於BI連接器的通道。Atlas SQL將是MongoDB為數據提供SQL介面的第一次真正嘗試,其思路絕不是簡單把JSON扁平化以使其在Tableau中看起來像MySQL,而是提供更加精細的視圖、反映JSON文檔架構的豐富性。
但SQL介面編寫工作不可能一蹴而就,所以預計Atlas SQL將在未來幾年內逐漸發展完善。 畢竟要想與各類SQL工具(不止是可視化)實現全面集成,MongoDB還得在豐富的數據倉庫選項上多下工夫。 我們還希望看到對upserts等操作的支持,分析平台沒有了這些核心功能,就相當於分析表中失去了行插入功能。
與Atlas SQL介面一同推出預覽版的全新列存儲索引,則意在提高分析查詢的性能水平。同樣的,這還僅僅只是開始。例如,MongoDB用戶目前仍需要手動設置列存儲索引、指定欄位。但從長遠來看,我們可以通過分析訪問模式來實現自動化。設想一下:後續我們可以豐富元數據以分析欄位基數,添加Bloom過濾器以進一步優化掃描功能,也可以繼續完善查詢計劃器。
接下來是Atlas Data Lake,負責為雲對象存儲中的JSON文檔提供聯合視圖。Atlas Data Lake在改造完成後,將針對多個Atlas集群和雲對象存儲提供更多的通用聯合查詢功能。新的存儲層會自動將Atlas集群數據集提取到雲對象存儲和內部技術目錄 (並非Alation)組合當中,藉此加快分析查詢。
— 4 —
以人為本
長期以來,MongoDB一直是開發者們最喜歡的資料庫之一。 這是因為開發者熱愛JavaScript和JSON,目前JS在Tiobe人氣指數中排名第七。而JavaScript、JSON和文檔模型將是MongoDB的永恆主題。但很遺憾,由於MongoDB此前一直刻意迴避SQL,所以也就失去了相應的龐大人才庫——SQL開發者同樣體量龐大,讓這一查詢語言在人氣指數中位列第九。現在,是時候做出改變了。
雖然MongoDB仍然認為文檔模型優於、並有望取代關系模型(只是一家之言),但相信大家都認同一點:為了進一步擴大影響范圍,MongoDB必須接納那些以往被忽略的受眾群體。要想雙贏,兩大陣營應該團結一致、實現簡化;對於某些操作用例,我們不必將數據移動並轉移至獨立的數據倉庫目標,而是簡化為在統一平台內操作,最終將數據提取轉化為更簡單的數據復制。
— 5 —
意不在取代數據倉庫、數據湖或智能湖倉
MongoDB絕不是要取代獨立的數據倉庫、數據湖或智能湖倉。目前復雜建模與發現已經成為分析工作中的重要組成部分,所以必須與操作型系統分別執行。 更重要的是,在操作型資料庫中支持分析,最大的意義其實是實現流程內聯並盡可能實時化。
換言之,MongoDB將由此實現與Snowflakes或者Databricks的全面協同。大家可以在數據倉庫、數據湖或智能湖倉中開發用於識別異常值的模型,再將結果整理為一個相對簡單、易於處理的分類、預測或規范模型。這樣只要交易中出現異常,該模型就會被自動觸發。
如今,在MongoDB中實現這樣的閉環流程已經頗具可行性,但具體方法仍然非常復雜。大家需要將MongoDB中的變更流、觸發器和函數拼湊起來,共同組織成某種封閉式的分析反饋循環。 相信在不久的將來,MongoDB將把這些復雜性要素隱藏在後台,直接提供簡單易用的閉環與近實時分析選項。 這絕不是憑空想像,而是技術發展趨勢的必然結果。如今,MongoDB已經踏上了這段分析 探索 之旅,我們也期待著它能早傳捷報。
2、電商商品系統存儲技術簡述
商品服務作為電商平台的基礎能力是電商平台使用最為頻繁的基礎服務之一。因此商品服務的穩定性直接關乎整個電商平台的穩健運行,在整個商品服務中商品的存儲最為重要。
商品的存儲技術按商品業務使用場景分別選擇存儲技術。常見的商品信息包含商品基本信息、商品的圖片視頻信息、商品的規格信息、塌亂培商品的介紹信息、商品的參數信息、還有商品的銷售信息等。各部分的信息結團唯構不一樣因此存儲選型也會有所差異。
商品基本信息存儲。商品基本信息模型固定通用性強且具有較強的事務性要求,因此一般選擇關系型資料庫存儲,目前使用最多的就是Mysql存儲。如果數據量很大需要早期規劃商品的分庫分表策略或讀寫分離策略。同時為了保護資料庫會使用Redis緩存商品基本信息。
商品的圖片視頻存儲。商品陪春的圖片和視頻文件比較大,目前常見的存儲方式是採用分布式對象存儲資料庫存儲源文件。目前常用的分布式對象存儲服務有阿里雲OSS、AWS的S3、七牛雲,還有開源分布式對象資料庫FastDFS。採用關系型資料庫如Mysql存儲文件路徑,這樣就做到物理和邏輯存儲分離。
商品參數信息存儲。由於商品參數的不確定性通常選擇MongoDB進行存儲。因為MongoDB是基於JSON描述數據天然具有擴展,對於多變不確定的數據結構具有良好的擴展性。
商品介紹信息存儲。商品介紹信息大多數情況下都是圖文描述,一般會作為圖片或靜態頁面進行展示。因此一般也會使用對象存儲資料庫存儲生成的圖片或靜態頁面。
商品的檢索信息存儲。商品的檢索是最為頻繁的操作之一。目前常用的搜索引擎就是ElasticSearch。通過將商品的銷售信息建立反向索引存儲進ES,滿足基本的搜索能力。
商品的存儲數據源類型比較多,因此數據的一致性就比較復雜。目前採用最多的就是最終一致性方式。通過業務介面調用,分布式消息,還有監控binlog保持數據源間的數據更新。採取CQRS模式分別維護讀寫操作。
3、Redis資料庫跟MongoDB資料庫有什麼區別呢?
你好
redis是緩存資料庫,很多電商用來秒殺系統中
mongoDB的話,文檔資料庫
望採納
4、關於電商網站資料庫的設計有什麼好的建議?
這個問題的核心點在於:不同商品類別差異很大,如何設計通用的存儲方案?簡單來說,用資料庫去存儲所有信息,不管橫表還是縱表,都有明顯的缺陷:橫表:同一個欄位對不同商品含義不一樣,這到了後面開發和維護是很蛋疼的縱表:一個商品的屬性分布到很多行記錄中,業務處理很麻煩,而且縱表的記錄數會非常多,性能會有問題所以不要嘗試只用資料庫去統一解決這個問題,思路擴散一些其實就簡單了:公共表:提煉商品公共的信息放到資料庫,例如商品id、名稱、發布的商家、發布日期、上架狀態擴展表:將變化的信息放到另外一個表,可以是資料庫表,例如電腦商品一個表、服裝一個表;也可以將信息放到MongoDB或者ElasticSearch這類文檔資料庫。搜索組件:擴展表在全文搜索的時候不好實現,因此需要獨立的組件負責搜索,可以用Elastic Search或者Solr來冗餘一份數據,用於搜索。表結構不算復雜,因為項目關系只有SPU,沒有涉及到SKU,但是可以做參考,更多的還是要根據項目實際情況設計。重點說明一下產品表的SPU,Keyword欄位。本來之前設計了關系表,但是發現在做SQL查詢時太痛苦,所以約定了一種數據存儲結構(數據結構的重要性)基於上面的基礎,可以實現URL規則變化的查詢,類似京東的產品查詢URL變化c=1,3 指分類層次關系ev=3_1+4_18 指SPU查詢 按約定規則轉換成字元串再進行查詢。
5、大數據分析的具體內容有哪些?
大數據分析的工作內容,可以大致分為茄盯四個步驟:數據獲取、數據處理、數據分析、數據呈現:
1.數據獲取
數據獲取看似簡單,但是需要把握對問題的商業理解,轉化成數據問題來解決,直白點講就是需要哪些數據,從哪些角度來分析,界定問題後,再進行數據採集。此環節,需要數據分析師具備結構沒納旦化的邏輯思維。
2.數據處理
數據的處理需要掌握有效率的工具:Excel基礎、常用函數和公式、數據透視表、VBA程序開發等式必備的;其次是Oracle和SQL sever,這是企業大數據分析不可缺少的技能;還有Hadoop之類的分布式資料庫,也要掌握。
3.分析數據
分析數據往往需要各類統計分枯擾析模型,如關聯規則、聚類、分類、預測模型等等。SPSS、SAS、Python、R等工具,多多益善。
4.數據呈現
可視化工具,有開源的Tableau可用,也有一些商業BI軟體,根據實際情況掌握即可。
6、大數據是什麼?
作者:李麗
鏈接:https://www.hu.com/question/23896161/answer/28624675
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請註明出處。
"大數據"是一個體量特別大,數據類別特別大的數據集,並且這樣的數據集無法用傳統資料庫工具對其內容進行抓取、管理和處理。 "大數據"首先是指數據體量(volumes)?大,指代大型數據集,一般在10TB?規模左右,但在實際應用中,很多企業用戶把多個數據集放在一起,已經形成了PB級的數據量;其次是指數據類別(variety)大,數據來自多種數據源,數據種類和格式日漸豐富,已沖破了以前所限定的結構化數據范疇,囊括了半結構化和非結構化數據。接著是數據處理速度(Velocity)快,在數據量非常龐大的情況下,也能夠做到數據的實時處理。最後一個特點是指數據真實性(Veracity)高,隨著社交數據、企業內容、交易與應用數據等新數據源的興趣,傳統數據源的局限被打破,企業愈發需要有效的信息之力以確保其真實性及安全性。
"大數據"是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。從數據的類別上看,"大數據"指的是無法使用傳統流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶採用非傳統處理方法的數據集。
亞馬遜網路服務(AWS)、大數據科學家JohnRauser提到一個簡單的定義:大數據就是任何超過了一台計算機處理能力的龐大數據量。
研發小組對大數據的定義:"大數據是最大的宣傳技術、是最時髦的技術,當這種現象出現時,定義就變得很混亂。" Kelly說:"大數據是可能不包含所有的信息,但我覺得大部分是正確的。對大數據的一部分認知在於,它是如此之大,分析它需要多個工作負載,這是AWS的定義。當你的技術達到極限時,也就是數據的極限"。 大數據不是關於如何定義,最重要的是如何使用。最大的挑戰在於哪些技術能更好的使用數據以及大數據的應用情況如何。這與傳統的資料庫相比,開源的大數據分析工具的如Hadoop的崛起,這些非結構化的數據服務的價值在哪裡。
二、大數據分析
從所周知,大數據已經不簡簡單單是數據大的事實了,而最重要的現實是對大數據進行分析,只有通過分析才能獲取很多智能的,深入的,有價值的信息。那麼越來越多的應用涉及到大數據,而這些大數據的屬性,包括數量,速度,多樣性等等都是呈現了大數據不斷增長的復雜性,所以大數據的分析方法在大數據領域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。基於如此的認識,大數據分析普遍存在的方法理論有哪些呢?
1、可視化分析
大數據分析的使用者有大數據分析專家,同時還有普通伏橡用戶,但是他們二者對於大數據分析最基本的要求就是可視化分析,因為可視化分析能夠直觀的呈現大數據特點,同時能夠非常容易被讀者所接讓廳慧受,就如同看圖說話一樣簡單明了
2、數據挖掘演算法
大數據分析的理論核心就是數據挖掘演算法,各種數據挖掘的演算法基於不同的數據類型和格式才能更加科學的呈現出數據本身具備的特點,也正是因為這些被全世界統計學家所公認的各種統計方法(可以稱之為真理)才能深入數據內部,挖掘出公認的價值。另外一個方面也是因為有這些數據挖掘的演算法才能更快速坦答的處理大數據,如果一個演算法得花上好幾年才能得出結論,那大數據的價值也就無從說起了。
3、預測性分析能力
大數據分析最終要的應用領域之一就是預測性分析,從大數據中挖掘出特點,通過科學的建立模型,之後便可以通過模型帶入新的數據,從而預測未來的數據。
4、數據質量和數據管理
大數據分析離不開數據質量和數據管理,高質量的數據和有效的數據管理,無論是在學術研究還是在商業應用領域,都能夠保證分析結果的真實和有價值。
大數據分析的基礎就是以上五個方面,當然更加深入大數據分析的話,還有很多很多更加有特點的、更加深入的、更加專業的大數據分析方法。
三、大數據技術
1、數據採集:ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成,最後載入到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
2、數據存取:關系資料庫、NOSQL、SQL等。
3、基礎架構:雲存儲、分布式文件存儲等。
4、數據處理:自然語言處理(NLP,NaturalLanguageProcessing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機"理解"自然語言,所以自然語言處理又叫做自然語言理解(NLU,NaturalLanguage Understanding),也稱為計算語言學(Computational Linguistics。一方面它是語言信息處理的一個分支,另一方面它是人工智慧(AI, Artificial Intelligence)的核心課題之一。
5、統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。
6、數據挖掘:分類
(Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity grouping or
association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復雜數據類型挖掘(Text,
Web ,圖形圖像,視頻,音頻等)
7、模型預測:預測模型、機器學習、建模模擬。
8、結果呈現:雲計算、標簽雲、關系圖等。
四、大數據特點
要理解大數據這一概念,首先要從"大"入手,"大"是指數據規模,大數據一般指在10TB(1TB=1024GB)規模以上的數據量。大數據同過去的海量數據有所區別,其基本特徵可以用4個V來總結(Vol-ume、Variety、Value和Veloc-ity),即體量大、多樣性、價值密度低、速度快。
1、
數據體量巨大。從TB級別,躍升到PB級別。
2、
數據類型繁多,如前文提到的網路日誌、視頻、圖片、地理位置信息,等等。
3、
價值密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。
4、
處理速度快。1秒定律。最後這一點也是和傳統的數據挖掘技術有著本質的不同。物聯網、雲計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的感測器,無一不是數據來源或者承載的方式。
大數據技術是指從各種各樣類型的巨量數據中,快速獲得有價值信息的技術。解決大數據問題的核心是大數據技術。目前所說的"大數據"不僅指數據本身的規模,也包括採集數據的工具、平台和數據分析系統。大數據研發目的是發展大數據技術並將其應用到相關領域,通過解決巨量數據處理問題促進其突破性發展。因此,大數據時代帶來的挑戰不僅體現在如何處理巨量數據從中獲取有價值的信息,也體現在如何加強大數據技術研發,搶占時代發展的前沿。
五、大數據處理
大數據處理之一:採集
大數據的採集是指利用多個資料庫來接收發自客戶端(Web、App或者感測器形式等)的數據,並且用戶可以通過這些資料庫來進行簡單的查詢和處理工作。比如,電商會使用傳統的關系型資料庫MySQL和Oracle等來存儲每一筆事務數據,除此之外,Redis和MongoDB這樣的NoSQL資料庫也常用於數據的採集。
在大數據的採集過程中,其主要特點和挑戰是並發數高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網站和淘寶,它們並發的訪問量在峰值時達到上百萬,所以需要在採集端部署大量資料庫才能支撐。並且如何在這些資料庫之間進行負載均衡和分片的確是需要深入的思考和設計。
大數據處理之二:導入/預處理
雖然採集端本身會有很多資料庫,但是如果要對這些海量數據進行有效的分析,還是應該將這些來自前端的數據導入到一個集中的大型分布式資料庫,或者分布式存儲集群,並且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。
導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鍾的導入量經常會達到百兆,甚至千兆級別。
大數據處理之三:統計/分析
統計與分析主要利用分布式資料庫,或者分布式計算集群來對存儲於其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基於MySQL的列式存儲Infobright等,而一些批處理,或者基於半結構化數據的需求可以使用Hadoop。
統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的佔用。
大數據處理之四:挖掘
與前面統計和分析過程不同的是,數據挖掘一般沒有什麼預先設定好的主題,主要是在現有數據上面進行基於各種演算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型演算法有用於聚類的Kmeans、用於統計學習的SVM和用於分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用於挖掘的演算法很復雜,並且計算涉及的數據量和計算量都很大,常用數據挖掘演算法都以單線程為主。
整個大數據處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是一個比較完整的大數據處理
六、大數據應用與案例分析
大數據應用的關鍵,也是其必要條件,就在於"IT"與"經營"的融合,當然,這里的經營的內涵可以非常廣泛,小至一個零售門店的經營,大至一個城市的經營。以下是關於各行各業,不同的組織機構在大數據方面的應用的案例,在此申明,以下案例均來源於網路,本文僅作引用,並在此基礎上作簡單的梳理和分類。
大數據應用案例之:醫療行業
[1] Seton Healthcare是採用IBM最新沃森技術醫療保健內容分析預測的首個客戶。該技術允許企業找到大量病人相關的臨床醫療信息,通過大數據處理,更好地分析病人的信息。
[2] 在加拿大多倫多的一家醫院,針對早產嬰兒,每秒鍾有超過3000次的數據讀取。通過這些數據分析,醫院能夠提前知道哪些早產兒出現問題並且有針對性地採取措施,避免早產嬰兒夭折。
[3] 它讓更多的創業者更方便地開發產品,比如通過社交網路來收集數據的健康類App。也許未來數年後,它們搜集的數據能讓醫生給你的診斷變得更為精確,比方說不是通用的成人每日三次一次一片,而是檢測到你的血液中葯劑已經代謝完成會自動提醒你再次服葯。
大數據應用案例之:能源行業
[1] 智能電網現在歐洲已經做到了終端,也就是所謂的智能電表。在德國,為了鼓勵利用太陽能,會在家庭安裝太陽能,除了賣電給你,當你的太陽能有多餘電的時候還可以買回來。通過電網收集每隔五分鍾或十分鍾收集一次數據,收集來的這些數據可以用來預測客戶的用電習慣等,從而推斷出在未來2~3個月時間里,整個電網大概需要多少電。有了這個預測後,就可以向發電或者供電企業購買一定數量的電。因為電有點像期貨一樣,如果提前買就會比較便宜,買現貨就比較貴。通過這個預測後,可以降低采購成本。
[2] 維斯塔斯風力系統,依靠的是BigInsights軟體和IBM超級計算機,然後對氣象數據進行分析,找出安裝風力渦輪機和整個風電場最佳的地點。利用大數據,以往需要數周的分析工作,現在僅需要不足1小時便可完成。
大數據應用案例之:通信行業
[1] XO Communications通過使用IBM SPSS預測分析軟體,減少了將近一半的客戶流失率。XO現在可以預測客戶的行為,發現行為趨勢,並找出存在缺陷的環節,從而幫助公司及時採取措施,保留客戶。此外,IBM新的Netezza網路分析加速器,將通過提供單個端到端網路、服務、客戶分析視圖的可擴展平台,幫助通信企業制定更科學、合理決策。
[2] 電信業者透過數以千萬計的客戶資料,能分析出多種使用者行為和趨勢,賣給需要的企業,這是全新的資料經濟。
[3] 中國移動通過大數據分析,對企業運營的全業務進行針對性的監控、預警、跟蹤。系統在第一時間自動捕捉市場變化,再以最快捷的方式推送給指定負責人,使他在最短時間內獲知市場行情。
[4] NTT docomo把手機位置信息和互聯網上的信息結合起來,為顧客提供附近的餐飲店信息,接近末班車時間時,提供末班車信息服務。
7、MongoDB的統計查詢和條件統計查詢問題請教
db.user.find().count(); ==> 這個快是因為 _id作碧升為主鍵是一個相對小的索隱慧衫引
而對應的mysql里是走的全表掃描
如果你設計的表結構很滿足範式,那麼其實並不是MongoDB所擅長的場景,你不會覺得mongodb有多快
db.com it在線灶腔教育8、mongoDB主要使用在什麼場景?
M
9、MongoDB挑戰傳統資料庫:非結構化資料庫的迭新不容小覷
相比甲骨文中國在中國市場的裁員風波,同為資料庫服務的MongoDB顯得更為樂觀。「MongoDB是中國開發者最喜歡用的一個資料庫。」MongoDB全球渠道及亞太區銷售高級副總裁Alan Chhabra帶著一點自信和驕傲在媒體面前宣稱。
中國企業的數字化轉型正進入關鍵期,在打造開放、高效、靈活、共享的雲計算基礎設施的同時,資料庫的更新換代也被提上了日程。
日前,非結構化資料庫平台提供商MongoDB在上海舉辦用戶大會,MongoDB全球渠道及亞太區銷售高級副總裁Alan Chhabra接受了億歐企業服務頻道的采訪, 並針對去年修改開源協議,在SSPL的不同許可機制下授權伺服器軟體的爭議以及其他疑問作出回應。
資料庫的本質是解決數據的存儲和管理問題。 Alan Chhabra表示,對企業發展具有戰略意義的資料庫正在催生巨大的市場。
在這些潛力頗大的資料庫中,市場上目前存在著的是關系型的傳統資料庫和以Mongo DB為代表的非關聯式新型資料庫。傳統資料庫比較典型的是甲骨文旗下的Oracle資料庫、IBM推出的大數據平台Hadoop和Stream Computing、微軟的SQL Server、SAP以及EMC Greenplum。 他們的主要差別在於資料庫的結構化和非結構化。
結構化的數據是指可以使用關系型資料庫表示和存儲,表現為二維形式的數據,存儲和排列很有規律,這對查詢和修改等操作很有幫助,但擴展性和靈活性欠佳。 非結構化資料庫就是各種文檔、圖片、視頻/音頻等沒有固定結構的數據,一般直接整體進行存儲為二進制的數據格式。 目前涵蓋分布式資料庫、圖資料庫、流資料庫、時空資料庫和眾包資料庫等多個領域。
MongoDB是文檔型的非結構化新型資料庫,Alan Chhabra表示, 與傳統資料庫相比,更能滿足用戶數據存儲量大、計算靈活的需求。「在某些客戶某慶裂些案例上,我們已經取代了傳統資料庫,比如甲骨文。」
當前, 軟體對於商業模式的改變、開發人員地位的提高,以及企業向雲端遷移的趨勢 都讓數據服務公司的發展得到了助力。但從畢馬威會計事務所對首席信息官的調查結果來看, 88%的首席信息官認為他們未能從數字化戰略中充分獲益;82%的首席信息官認為其所在機構在利用技術推動業務發展方面並非「卓有成效」。 也就是說, 大多數公司的數字化戰略是以失敗告終的。
在此背景下,更加靈活、性能更加強大的新型資料庫在一些領域獲得了試驗田豐收,並且可以看到,隨著客戶數據需求的繁雜程度的日益增加,傳統資料庫也在自我革新,以迎頭趕上數據浪潮的大變革。
MongoDB成立於2007年,2017年在納斯達克上市。最初,MongoDB是一項面向技譽返閉術愛好者的技術,如今已成為一項企業級的業務關鍵技術。通過不斷開發資料庫即服務(Database-as-a-Service)產品,積極擁抱雲計算,MongoDB在過去十年裡,為開發人員提供了處理數據的方法。正因如此,它也成了企業數字化轉型戰略的一個關鍵部分。
MongoDB提供的產品主要包括MongoDB雲服務MongoDB Atlas、MongoDB Mobile、MongoDB企業版和MongoDB Stitch等十餘個相關產品。Alan Chhabra表示,產品包括了 開源版、付費版和雲版。
2018 年 10 月,MongoDB宣布其開源許可證將從GNU AGPLv3切換到SSPL,新許可證將適用於新版本的MongoDB Community Server以及打過補丁的舊版本,這一舉動引發了行業熱議。基於GNU AGPLv3協議,企業可以將MongoDB作為公共服務但這需要企業開源自己的軟體或是獲得MongoDB的商業授權,事實卻是MongoDB發現許多企業正在違反協議「瘋狂試探」甚至已經違反協議。 SSPL( Server Side Public License)顧名思義,要求使用者必須得到伺服器端公共許可證,這一協議會進一步約束商業公司使用MongoDB服務。
Alan Chhabra向億歐解釋, SSPL 針對的是提供MongoDB託管服務的雲服務廠商。 也就是說,如果不是雲服務廠商,沒有公然售賣MongoDB產品,而只是世轎作為應用後台資料庫來使用的話,那麼無論你是電商、物聯網、金融、社交、 游戲 、移動應用等等,一概都不會有任何影響。 「MongoDB的宗旨還是為了始終支持並保護創新開放。」
但此開源協議的修改明顯帶來了市場用戶的「掉粉」,比如Linux 社區的接連「棄用」,以及AWS 、IBM、微軟推出了兼容MongoDB的相關產品來服務用戶。
資料庫開源的商業變現與創新形成的矛盾,目前似乎還尚未找到解決方案。
Alan Chhabra在大會上也透露了MongoDB的未來計劃, 即將基於智能運營數據平台和下一代基礎架構、文化、方法論和安全,推動原有系統的現代化、數據即服務、雲數據策略、業務敏捷性,進而幫助客戶實現以數據驅動的數字化轉型。
針對MongoDB在中國的發展情況, Alan Chhabra表示,公司將以創新立足,持續引領資料庫技術發展潮流,與合作夥伴攜手助力中國企業的數字化轉型。
MongoDB北亞區副總裁蘇玉龍認為:「中國是數據大國,而數據就是未來的石油。如何利用好數據,讓數據石油助力中國企業騰飛是MongoDB希望在中國達成的事情。隨著中國企業數字化轉型逐漸走向深入,MongoDB資料庫的價值得到不斷釋放。」
本文作者龔晨霞,微信Gcx847076575,歡迎關注企業服務和產業互聯網的朋友加微信交流。