欧美一二三区,久久麻豆视频,久久精品观看 http://m.1921681-1.com 免費分享網絡副業項目、優質教程、軟件工具 - 互聯網項目分享基地 Mon, 10 Mar 2025 09:12:02 +0000 zh-Hans hourly 1 https://wordpress.org/?v=6.8.2 http://m.1921681-1.com/wp-content/uploads/2025/03/cropped-IMG_20241228_005044-1-1.png 數據分析 – 網創聯盟 http://m.1921681-1.com 32 32 Highcharts | 時序圖 演示 http://m.1921681-1.com/17313.html http://m.1921681-1.com/17313.html#respond Mon, 10 Mar 2025 09:12:02 +0000 http://m.1921681-1.com/17313.html HIGHCHARTS 簡介 是一個用純 JavaScript 編寫的一個圖表庫, 能夠很簡單便捷的在 Web 網站或是 Web 應用程序添加有交互性的圖表,并且免費提供給個人學習、個人網站和非商業用途使用。  Highcharts 支持的圖表類型有直線圖、曲線圖、區域圖、柱狀圖、餅狀圖、散狀點圖、儀表圖、氣泡圖、瀑布流圖等多達 20 種圖表,其中很多圖表可以集成在同一個圖形中形成混合圖。

Highcharts | 時序圖 演示

]]>
http://m.1921681-1.com/17313.html/feed 0
分享幾本私藏的統計學和數據分析方面的書 http://m.1921681-1.com/17310.html http://m.1921681-1.com/17310.html#respond Mon, 10 Mar 2025 09:11:57 +0000 http://m.1921681-1.com/17310.html 平時碎片化閱讀的時候喜歡把一些好的文章和資源收藏下來,等不忙的時候去仔細閱讀消化一下后發布到網站上,慢慢的這也成為了自己的一種知識和資源的積累方式。

不可否認的是這種方式帶給了我很大的幫助和促進了我的成長,其實這也是一種類似學生時代的學習方式,將碎片化的知識點固化到筆記本上,在腦海中留下一種印記,當再遇到同樣的問題時雖然想不起來具體的內容,但是我知道在我的筆記本上曾經記錄過這樣的問題,這時我可以再次去查閱筆記,再次形成一種記憶,反復幾次這個問題或知識點終究會被我記住,這就是學習的過程。

今天分享了一個學習的方法,再給大家分享幾本私藏的書籍,是統計學和方面的,雖然可能不合你的口味,但是很符合我的口味,哈哈!其實這也是我再次強化對這幾本書印象的一個過程,無時無刻不在貫徹學習方法?

分享幾本私藏的統計學和數據分析方面的書

分享幾本私藏的統計學和數據分析方面的書

分享幾本私藏的統計學和數據分析方面的書

]]>
http://m.1921681-1.com/17310.html/feed 0
誰說菜鳥不會數據分析?(入門篇+工具篇+SPSS篇) http://m.1921681-1.com/17151.html http://m.1921681-1.com/17151.html#respond Mon, 10 Mar 2025 08:53:11 +0000 http://m.1921681-1.com/17151.html 《誰說菜鳥不會》這套書目前一共出版了三冊,入門篇+工具篇+SPSS篇,今天這篇文章實實在在的給大家分享干貨,將會從這本書的內容、作用和適合學習的人群幾個方面給大家做一個簡單的介紹。當然最后會把這三冊的下載鏈接分享給大家,博主整理資源不容易,下載會有一點點限制,同時也是為了避免爬蟲惡意采集,限制的方式也很簡單,只要大家回復本篇文章即可獲取下載鏈接。好了切回正題,下面將為大家簡單介紹一下本書。

《誰說菜鳥不會數據分析》,是一部由電子工業出版社于2011年6月20日出版的圖書,作者是張文霖、劉夏璐、狄松。此書按照數據分析工作的完整流程來講解。《誰說菜鳥不會數據分析》適合需要提升自身競爭力的職場新人;在市場營銷、金融、財務、人力資源管理中需要作數據分析的人士;經常閱讀經營分析、市場研究報告的各級管理人員;從事咨詢、研究、分析等專業人士。

很多人看到數據分析就望而卻步,擔心門檻高,無法邁入數據分析的門檻。此書在降低學習難度方面做了大量的嘗試:基于通用的Excel工具,加上必知必會的數據分析概念,并且采用通俗易懂的講解方式。此書努力將數據分析寫成像小說一樣通俗易懂,使讀者可以在無形之中學會數據分析。

全書共8章,分別講解數據分析必知必會的知識、數據處理技巧、數據展現的技術、通過專業化的視角來提升圖表之美、數據分析報告的撰寫技能以及持續的修煉。

此書形式活潑,內容豐富而且充實,讓人有不斷閱讀下去的動力。讀者完全可以把這此書當小說來閱讀,跟隨主人公小白,在Mr.林的指點下輕松掌握數據分析的技能,提升職場競爭能力。

工欲善其事,必先利其器。數據剖析也不破例,本書根據Excel,淺顯地解說數據剖析全流程東西。本書持續選用職場三人行的方式來構建內容,詳盡梳理了數據剖析作業的完好流程,并根據常用的辦公軟件Excel,精心挑選可以進步作業效率的常用東西來解說。這些東西包括數據處理(Microsoft Access、Query)、數據剖析(PowerPivot、Excel數據剖析東西庫)、數據呈現(水晶易表)和陳述自動化(VBA)。本書形式生動,內容豐富并且充分,讓人有不斷閱覽下去的動力。

下載地址:(回復本篇文章即可獲取下載鏈接)

[CommShow]

「[誰說菜鳥不會數據分析(入門篇)].張文霖.全彩版.pdf」鏈接:https://www.aliyundrive.com/s/2MGFZup3sjD

「[誰說菜鳥不會數據分析(工具篇)].張文霖.影印版.pdf」鏈接:https://www.aliyundrive.com/s/h8RdbtrbCh9

「[誰說菜鳥不會數據分析(SPSS篇)]高清全彩完整版.pdf」鏈接:https://www.aliyundrive.com/s/t87WR5Ur6sg

[/CommShow]

誰說菜鳥不會數據分析?(入門篇+工具篇+SPSS篇)

]]>
http://m.1921681-1.com/17151.html/feed 0
在線編輯、即時生成報告的輕量級數據可視化工具 http://m.1921681-1.com/17150.html http://m.1921681-1.com/17150.html#respond Mon, 10 Mar 2025 08:53:10 +0000 http://m.1921681-1.com/17150.html 文圖 是一款在線編輯、即時生成報告的輕量級工具。文圖提供豐富的配色方案和專業的數據呈現模板,可以快速在線完成數據管理、報告制作、排版發布以及分享傳播的整個流程,讓數據可視化、業務報表和分析報告變得更簡單。
多種設計精良的文檔模板和配色方案,一鍵切換報告外觀
百余種圖表類型、可視化方案和文字樣式,所見即所得的數據輸入和外觀調整
自動保存備份、手機電腦同步瀏覽,二維碼分享、支持各種格式的文檔導出,讓傳播和協作更便捷
適應全平臺的報告展示優化,PC、Mac、iOS和Android端隨時瀏覽
自由拖拽換位、隨心所欲的自定義布局
云端存儲、隨身而動、永不丟失

更多專業的進階模塊:數據源管理,動態數據API、團隊協作、多文檔視圖

官網:https://www.wentu.io/

在線編輯、即時生成報告的輕量級數據可視化工具

]]>
http://m.1921681-1.com/17150.html/feed 0
用Excel做回歸分析時常見的一些問題,置信度,R,R-Square,P http://m.1921681-1.com/17149.html http://m.1921681-1.com/17149.html#respond Mon, 10 Mar 2025 08:53:07 +0000 http://m.1921681-1.com/17149.html 回歸分析是確定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法。通過數據間相關性分析的研究,進一步建立自變量Xi(i=1,2,3,…)與因變量Y之間的回歸函數關系,即回歸分析模型,從而預測數據的發展趨勢。

按照自變量與因變量之間的關系類型,可以分為線性回歸與非線性回歸。因此我們可以理解為,線性回歸只是回歸分析所用方法之一,體現出的是變量之間的線性關系。

線性回歸的表達式為:Y=b*X+a(a為誤差服從均值為0的正態分布)

其中線性回歸分析按照涉及自變量的多少,分為一元線性回歸分析和多元線性回歸分析。

一元線性回歸分析

只包括單個自變量和一個因變量,且二者的關系可用一條直線近似表示。它主要研究單個自變量X對因變量Y是否有影響。

比如,身高(X)與體重(Y)的影響。

多元線性回歸分析

包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關系。它主要研究多個自變量X1、X2….Xn對因變量Y是否有影響。

比如,身高(X1)、飲食情況(X2)…運動量(Xn)等因素對體重(Y)的影響。

用Excel研究回歸分析的主要問題有四個:

1、確定Y與X間的定量關系表達式,這種表達式稱為回歸方程;

2、對求得的回歸方程的可信度進行檢驗;

3、判斷自變量X對因變量Y有無影響;

4、利用所求得的回歸方程進行預測和控制。

1、置信度

95%置信區間指的是某個總體參數的真實值有95%的概率會落在測量結果的區間內。

例如:通過測量某班級學生的考試成績,得到有95%的置信水平該班成績的置信區間在60分到80分之間。

那么可以說:在多次抽樣后,由95%的樣本得到的區間會包含該班學生考試的平均成績的真值。

置信區間在頻率學派中間使用,其在貝葉斯統計中的對應概念是可信區間。兩者建立在不同的概念基礎上的,貝葉斯統計將分布的位置參數視為隨機變量,并對給定觀測到的數據之后未知參數的后驗分布進行描述。

故無論對隨機樣本還是已觀測數據,構造出來的可信區間,其可信水平都是一個合法的概率;而置信區間的置信水平,只在考慮隨機樣本時可以被理解為一個概率。

2、R(Multiple R)

回歸分析中r值表示相關系數,相關系數r值度量兩變量之間的線性相關性。r值取值范圍為【-1,+1】。相關系數為-1,表示完全負相關;相關系數為+1,表示完全正相關。相關系數為0表示兩變量之間無線性相關性。

3、可決系數(R-squared)

都知道可決系數表示解釋變量對被解釋變量的解釋貢獻,其實質就是看(y尖-y均)與(y=y均)的一致程度。y尖為y的估計值,y均為y的總體均值。

4、調整后的可決系數(Adjusted R Square)

即經自由度修正后的可決系數,從計算公式可知調整后的可決系數小于可決系數,并且可決系數可能為負,此時說明模型極不可靠。

5、P值(P-value)

P值為理論T值超越樣本T值的概率,應該聯系顯著性水平α相比,α表示原假設成立的前提下,理論T值超過樣本T值的概率,當P值<α值,說明這種結果實際出現的概率的概率比在原假設成立的前提下這種結果出現的可能性還小但它偏偏出現了,因此拒絕接受原假設。

6、回歸方程怎么寫

回歸方程要根據回歸分析的結果中的系數(Coefficients)去寫,也分一元線性回歸方程和多元線性回歸方程。

下面李海博客以一元線性回歸方程為例講一下寫法:

用Excel做回歸分析時常見的一些問題,置信度,R,R-Square,P

根據分析結果中的系數(Coefficients),一元線性回歸方程寫法為 Y=0.868171X-25.535。

多元線性回歸方程寫法為 Y=系數1*X1+系數2*X2+系數3*X3-截距(Intercept)。

以上就是李海博客總結的用做回歸分析時常見的一些問題,包括置信度,R,R-Square,P,回歸方程等。

]]>
http://m.1921681-1.com/17149.html/feed 0
企業如何搭建一套完整的指標體系? http://m.1921681-1.com/17148.html http://m.1921681-1.com/17148.html#respond Mon, 10 Mar 2025 08:53:05 +0000 http://m.1921681-1.com/17148.html 傅一平:

這篇文章沒有具體介紹的“術”,而是在講“道”,還是很有新意,核心觀點有四個:

1、公司的價值流依賴業務流程,因此通過公司的核心業務流程的分析和拆解才能構建出合理的指標體系。

2、基于業務流程進行指標的層層拆解才能獲得各個層面的指標,除了生產部門指標,還要設置職能部門的保障性指標以及業務部門的業務保障性指標,這樣覆蓋整個公司的指標體系就搭建起來了。

3、搭建指標體系的人要對整個公司的業務及業務流程非常熟悉,或者說指標體系的搭建過程應該是各部門共同參與,不要相信最佳實踐。

4、指標體系的設置應該做到各部門互相牽制,負責部門和考核部門互相獨立、能從全局中立的角度評估合理性。

企業如何搭建一套完整的指標體系?

01  指標體系是什么?

其實,現代企業和封建社會商幫(喬家大院時代)在管理方法上最大的區別就是引入了統計學(其它的諸如制度、股權、職業經理人制度等其實在古代商幫早就有,喬致庸就給手下的員工發了股份嘛)。

提起指標,我們總能想起那個著名管理學大師彼得·德魯克名言:“如果你不能衡量,那么就不能管理”。當然,也不能說古代的企業管理沒有統計學,至少是有統計的,要不然怎么知道每年掙了多少兩銀子呢。

隨著企業管理知識的進步,更多的數據和統計被應用到企業管理當中。從市場營銷到銷售售后、從客戶調研到CRM管理、從研發到物流。

以前,主要是用統計學(例如做一大堆抽樣調研)根據概率分布得出結論。

現在到了大數據時代,我們可以非常輕松地統計上億用戶的瀏覽、下單、評論行為,進而得出結論。

所以,所謂的指標就是對所觀察事物的一種量化統計。大到企業的收入利潤,小到每個一線銷售人員每天的客戶拜訪量、成單量等。

那么,什么是體系呢?

體系,就是用一套邏輯把一大堆東西連接起來。比如,人的生命體系包括大腦、心臟、血液、各種器官等等,每一個組成部分都在這個體系中有自己獨特的功能,都是這個體系不可或缺的一部分。

而企業的指標體系,就是能夠將大到企業的總收入、利潤,小到每個銷售員的成交量等單個指標用一套邏輯連接起來。

在這套邏輯里,你能從局部看到整體,能從整體劃分到局部。

例如你頭疼(整體),醫生能夠按照人的生命體系一一檢查,直到發現你上呼吸道不正常,發生了感染(局部);也能從你手扎破了(局部),如果不及時處理傷口,可能由于感染丟失了性命(整體)。

企業也一樣,通過企業的指標體系,也能看到企業利潤沒有達成,是哪個部門(個人)出現了問題,也可從一個銷售員的業績推斷出公司的整體情況。

由此可以看出,指標體系最重要的是“指標”和“邏輯”。

02 指標體系如何搭建?

那么,如果我們想要搭建一套完整指標體系,就得有一大堆衡量企業健康狀況的指標,還得有一整套邏輯將企業的各個指標有機連接起來。

“指標”和“邏輯”雖然是指標體系的兩個組成部分,但是構造“指標”和“邏輯”的過程卻是同一個過程,那就是“自上而下,從大到小”,層層拆解,步步細分(業績目標的設定過程可能相反)。

首先,每個企業都有自己每年的整體目標,這個目標一般是營收、利潤、或銷量。

這個大指標的問題在于,它無法把責任落在某一個具體的人或部門(CEO不算,因為整個指標體系就是為了他達成大指標使用的管理工具,他又不能一個人把公司所有活干了),所以就需要把這個大指標進行拆解,直到拆解到責任可以落實到每一個部門(個人)頭上。

其次,就是如何拆解企業目標,這一步至關重要。一般來說,指標體系是按照本企業的業務流程進行拆解。

那什么是業務流程呢?它指的就是你要將從消費者(或者客戶)那里收到錢所經歷的所有的步驟進行拆解(也有人說按照消費者消費路徑來拆解的,個人認為主要是業務流程,因為一般公司的部門是按照業務流程設置的)。

例如一家汽車制造公司,要想從客戶手里收到購車款,大體來說需要經歷造車——>營銷——>物流——>銷售的環節。那如何將企業一年的收入在這些環節進行分解,這時可以就需要“將業務流程抽象為數學公式”,因為指標本質上還是數據,所以指標的拆解當然離不開數學。

以上汽車銷售的業務流程用數學公式表達出來如下:

汽車廠的銷售收入=Max{出廠車輛數,營銷產生的銷售線索數??銷售轉化率??門店數量}??單車利潤

因此,要達成營業利潤那么子指標就是銷售車輛數,而銷售車輛數的子指標就是出廠車輛數、銷售線索數、銷售轉化率。

這是大指標的一級拆解,一級拆解,一般建議子指標可以找到一個具體負責的部門。因為說一千道一萬,企業是由各部門組成的,不論是傳統企業是互聯網公司,當然集團除外,我們這里主要說的是某一板塊業務。

這樣拆解的好處就是,雖然這個部門無法完全控制整個公司大指標,但是總可以控制部門的子指標。

例如,營銷部可能無法對整個公司的銷售收入負責,畢竟如果你車造的很爛,或者銷售人員不努力,即使我把產品吹上天,消費者實際到店一試駕,還是不會買不是嗎。但是,有多少人看廣告,有多人看了廣告愿意試駕(銷售線索)你總不能甩鍋吧。

第三,就是將每個業務流程的目標再次在本流程的子流程層面進行二級拆解。

例如,營銷部負責銷售線索數,但是你可能在很多媒介上做廣告,例如電視、門戶網站、移動端APP等等,那么每一個媒介上有多少銷售線索數,你總得有一個統計指標吧,或者每一個媒介都有一個具體的人員在負責,那么將“銷售線索數”這個子指標再細分,就是“XX媒介產生的銷售線索數”。

這樣,我們就可以看出這個媒介在整年的表現,如果責任到人的話,可以直接去看負責這個媒介投放的人員的業績表現,進而通過這個子指標看其對整個營業收入(公司大指標)的影響。

其實這方面沒有很好的方法,網上很多人都在鼓吹“OSM模型”,O就是Objective,S 是Strategy,M 是Measurement,其實它更多指的是一個概念框架,而且是高度抽象、大道至簡的那種,而在真實的應用上能夠參考的意義是有限的(就像 SWOT 分析一樣)。

因此,最好的方法,就是你對這個業務流程相當了解,這也是現實中為什么 HR 部門無法設置好的指標體系了,因為他們對業務流程的了解一般少之又少。所以,指標的拆解(指標體系的搭建),其實是非常內行的一件事情。

第四,是將一些職能部門的指標以及業務部門的保障性指標加入進去。

如果按照上述方法拆解KPI,那么基本上只有銷售部、營銷部、生產部等主要業務部門的指標,但是問題是整個公司的運行不是只有業務部門,還有很多職能部門,這些職能部門的工作也很重要,因為他們是保障整個公司的健康運行,也就是以上業務部門的指標能夠達成的基礎環境(參見波特價值鏈)。

舉個例子,如果財務部門不好好工作,導致出現一個財務漏洞,那整個公司好幾年的營收估計都搭進去了,又何談一年的目標實現呢?

那這些職能部門的指標如何拆解呢?

首先,你必須得了解它們的主要工作內容、工作目標、工作流程。例如財務部門,主要指標可能是財務報告的及時性和準確性,以及預算管理的好與壞,這些都是可以量化的。

還有數據分析部門可能主要是一個支撐部門,那目標就是、及時準確地支撐業務部門數據需求、報表開發、給管理層的深度分析報告等,這些服務可以由各業務部門來打分,這樣你就可以設置數據分析部門的指標諸如“數據提供滿意度”、“數據分析報告滿意度”等。

此外,業務部門也有保障性指標。例如生產部的指標肯定不光是生產合格的產品數量,你還得在一定時間、按照一定成本、按照一定良品率把合格的產品生產出來,那這個部門(業務)的指標就不光是生產合格的產品數量,還有以上提到的保障性指標。

通過之前搭建的業務指標體系(總指標——>細分——>細分——>……),加上諸如風險管理、財務、人事等職能(支撐)部門的保障性指標以及業務部門的業務保障性指標,覆蓋整個公司的指標體系就搭建起來了。

這個體系整體像一顆巨大的數,但是在內在結構上又是枝與枝相關聯,例如各部門的預算控制好了,整個財務的預算才能控制好;或者說數據部門要提供好用的報表,也得開發部門開發出好用的報表套件才行。畢竟,各部門相互連接,整個公司才是一個“有機的”整體(下圖)。

03 指標體系搭建5大注意要點

第一,搭建指標體系的人要對整個公司的業務及業務流程非常熟悉,或者說指標體系的搭建過程應該是各部門共同參與,而不單單是某一個部門的事情。

好的指標體系絕不是單純地套用某些行業/公司的模版就可以,因為好的指標體系一定要與你的業務特點、業務流程、業務策略深度綁定,比如開火鍋店的和西餐的指標體系肯定是不一樣的,在國貿開西餐和在火車站開西餐的指標體系也是不一樣的,所以光靠招聘一個數據分析師肯定不行。

第二,好的指標體系應該是各部門互相牽制、相互影響,指標的負責部門和指標的考核部門應該獨立開來。

如果生產部門或產品開發部門只管生產車輛,而不管車輛的品質、市場契合度等,你就是讓銷售部門去硬背銷售指標,最終只能導致銷售人員離職率飆升,因為產品不好,就算你賣出去了,你的退貨率、保修率能不高嗎?

所以,好的指標體系應該是銷售部門、售后部門負責“產品滿意度”這個指標的考核。這樣就達到了“你說我銷售不給力,我說你產品不好”的效果,這種相互爭吵的效果在真實的企業管理中是需要的。

第三,好的指標體系,應該是有人從中立的角度去檢驗的。

正如之前所講,要搭建好的指標體系,首先你得對整個公司的業務非常了解。

現實中很多數據部門/負責指標體系搭建的部門對業務并不了解,那么他們是如何搭建指標體系的呢?就是靠各部門主動報送指標項。

但是,這里的坑就是各部門報送的指標一定是對自己有利的,而非對公司有利的。例如,營銷部門一定會報送注冊用戶數,但是不會報送注冊用戶次月留存率,這樣,如果沒有行家從中立的角度去看,到最后這個轉化率指標一定是銷售部門和營銷部門無限制扯皮的過程,而注冊用戶數也可以輕松搞上去。

第四,指標體系用于考核的時候,一定是有“共背指標”的,這和第二點有相似之處。

好的考核體系,一定是諸如“銷售收入”這樣涉及公司好壞安危的重大指標由所有部門共同擔負,這樣做的好處一是避免到年末有些部門獎金豐厚有些部門沒有獎金,二是給予一種銷量不好人人有責的公司氛圍。當然還有一些特定領域的指標,例如用戶留存率,最好是拉新部門和運營部門共同背負。

最后,好的指標體系,一定是每個指標都有清晰的統計口徑的。

這一點不用多說大家應該都能懂,大多數時候我們看年末快完不成任務,就各種修改指標口徑和統計方式,這樣以來,牽一發而動全身,對整個指標體系有傷筋動骨的影響,而且如果口徑隨意更改,那指標就失去了威懾力,一旦失去威懾力,那就失去了它的所有作用。

]]>
http://m.1921681-1.com/17148.html/feed 0
BI行業停滯不前的原因是什么? http://m.1921681-1.com/17147.html http://m.1921681-1.com/17147.html#respond Mon, 10 Mar 2025 08:53:04 +0000 http://m.1921681-1.com/17147.html 傅一平評語:
最近Tableau退出中國,不知道什么原因,我以前的文章多次說過,BI的核心功能20年就沒變過,自己并不看好BI的發展,這篇文章給出了一些原因,我總結如下:
1、買BI軟件的和使用BI軟件的是兩撥人,酷炫功能忽悠了前者,BI平臺到處充斥著半生不熟、花里胡哨的無用功能,很怪
2、BI定位為輕量級的產品,但靈活性無法超越EXCEL,EXCEL成了BI最大的競品
3、BI無法成為高性能的的產品,因為大多BI產品沒有后端數據庫引擎的加持,逼著它去跟無所不能的EXCEL競爭
4、BI可視化可能降低了一定的分析門檻,但如果其在知識自動生成方面沒有建樹,BI的決策智能就永遠停留在60分
正文開始
作者:Dmitry Gudkov是EasyMorph的創始人,這家公司開發功能強大的無代碼數據轉換和自動化應用軟件,為不懂技術的人員設計。

BI行業停滯不前的原因是什么?EasyMorph創始人Dmitry Gudkov在本文中闡述了商業智能(BI)行業停滯不前的窘境以及工具市場的現狀。

幾周前,我在領英上發表過一篇簡短的文章,質疑該行業是否因為過去十年沒有真正的創新而停滯不前。這篇文章隨即引發了激烈的討論,許多讀者留下了頗有意思的評論。一些評論者有一個共同點:商業智能(BI)系統的推出或部署過于頻繁,卻從最終用戶那里得到不冷不熱的反應,長期以來飽受采用率低下之苦。
比如說,一位評論者留言:“對我來說停滯不前的主要跡象是未能兌現自助服務的承諾。沒錯,可視化因新一波的自助服務BI工具而變得更好,但令人尷尬的是,用戶采用率仍然低下。”
另一個人對此的回應是:“你的評論中認為缺少用戶采用這部分對我來說很有意思。作為一名BI開發人員,我見過無數項目在數月內耗費資源,產品被提升到了生產環境,你也告知了最終用戶社區,然而報告工具[似乎]從未得到采用。”
在我看來,缺少技術突破和采用率低下表明了同一個問題:BI行業長期以來一直停滯不前。因此,找出用戶采用率低下的原因將為我們擺脫停滯不前的窘境提供一條線索。那么為什么BI用戶采用率低下呢?
商業智能一個鮮為人知的方面是它與其他類型的企業IT系統不同,原因是BI用戶總是有選擇。若是大多數企業系統,員工通常無法選擇要不要使用它們。如果企業組織運行一套會計應用系統,沒有哪個會計師可以繞過該系統、使用替代方案。另舉一個例子,無論你喜不喜歡,你都必須使用ERP系統。
然而,換成BI平臺就不一樣了,因為用戶總是可以借助用慣了的老式Excel電子表格,而你無法真正禁止使用Excel。事實證明,無法強迫人們采用BI應用軟件,他們得喜歡它才行。只有當BI應用軟件提供真正的價值,他們才會喜歡它。記得有句諺語:“你可以把馬牽到水邊,但沒法逼它喝水?”道理是一樣的。
OK,那為什么企業用戶一直堅持使用Excel?他們為什么不喜歡這些嶄新的BI平臺,這些平臺擁有知名行業分析師盛贊的眾多酷炫功能?為什么沒有這些平臺,他們完全沒問題呢?
在我看來,這是由于BI產品管理很大程度上取決于技術人員和銷售人員。說到數據分析和操作,實際的用戶需求和偏好方面考慮得太少。結果,我們看到了“酷炫”(對于技術人員而言)、有時基于AI的(雙重酷炫!)功能,但它們并沒有讓目標受眾即用戶的日子過得更輕松,因此采用率很低。
BI行業存在我所說的“玩具賣家問題”。銷售玩具假定兒童是使用者 (用戶),但父母是預算持有者和決策者。與玩具銷售一樣,BI部署中的用戶和買家是兩個不同的角色。企業BI銷售流程主要是為買家(IT預算持有者)量身定制的,而不是為實際上每天都不得不使用產品的非技術人員定制的。結果,BI平臺充斥著半生不熟、花里胡哨的無用功能,在組織購買平臺后沒有人實際使用這些功能。
不妨以AI支持的自然語言查詢為例。它們一出場就死了。為什么?如果你仔細考慮一下,就會發現功能顯然未能兌現承諾。它承諾不需要學習查詢語言(只需對它說英文,耶!),而實際上,你仍然需要學習其相當局限的語法,還經常會遇到它的種種限制。此外,從更普遍的角度來看,AI根本還沒有為這種任務做好準備。當前的AI并不是基于上下文,而業務分析和推理總是在上下文中進行。舉例來說,你不能與Siri進行相當長的對話,因為Siri無法理解對話的上下文,因此你的每個問題都應該在好像沒有之前問題和答案的情況下開始。你無法用那種水平的AI做任何合理的分析,而BI應用軟件中的AI水平比這還要差(這點可以理解,因為不是每家公司都有蘋果那么龐大的研發預算)。
分析文本摘要生成是另一個大肆營銷的功能,它有悖于數據可視化的整個概念,原因是閱讀對認知的要求總是比觀看來得高。難怪它從未真正流行起來。
從原生桌面應用程序向基于云的SaaS模型普遍轉變更是加劇了BI采用方面的問題。談到云,企業用戶和IT經理的要求有時背道而馳,前者通常沒有發言權。SaaS應用程序模式無法解決任何用戶的問題,而原本期望BI 解決方案解決這些問題。有時恰恰相反,SaaS甚至讓基本的事情變得更糟糕。
比如說,企業用戶處理大量本地文件:電子表格和CSV文件等。畢竟,并非所有內容都存儲在云端。在分析和可視化文件之前,經常需要合并這些文件。然而,現在用戶必須將文件上傳到另一臺遠程計算機并在那里合并,而不是在本地快速合并。如果合并出了岔子,必須在本地修復文件,并再次重新上傳。所以一項基本的操作現在需要用戶采取完全不必要的額外操作。
另一個問題:基于云的SaaS應用軟件速度很慢,慢得要命。一款工具本應該提高生產力,到頭來卻害用戶坐等另一個報告或儀表板加載完畢。這里或那里延遲幾分鐘可能聽起來沒什么大不了,但一年下來,就會損失幾天甚至幾周的生產力。我們的一位客戶反映,使用其中一款主要的在線BI平臺速度很慢,甚至經常登錄超時。另一位客戶在看到其數據準備工作流程在本地數據準備應用軟件中運行后簡直不敢相信自己的眼睛:僅用了20秒就完成,而他在另一款知名的云BI平臺上等待同樣的工作流程通常需要半小時,盡管使用了市面上最昂貴的方案。
改用云服務常常是將一種類型的問題換成另一種類型的問題,并帶來以前根本不存在的新問題。比如說,云服務通常帶來限制性的呼叫速率限制(節流)。改用云應用軟件后,你過去在本地系統中可以隨意執行的許多操作都受到速率限制。你想在云表中插入100萬行數據?沒那么快,你一次只能插入10萬行,并且每小時插入不得超過10次。你想要運行數據準備流程?沒那么快,如今你只能在最多3路流程中運行49次轉換,確保不超過云配額的每日限制。
頗具諷刺意味的是,要求用戶使用Web應用軟件來工作的同樣那些人沒有在其iPhone上使用應用軟件的Web版本。他們不是使用Web版本的Twitter或Facebook,而是從應用商店安裝相應的原生應用程序。原因何在?因為原生應用程序更方便、更快速、響應更迅即。但是說到BI工具,這些人卻要求用戶使用Web版本。為什么?因為SaaS讓他們的日子更輕松,而不是讓用戶的日子更輕松。這就是所謂的“玩具賣家問題”。
出于多種原因,云和SaaS一直是IT經理、開發人員和供應商眼里的天賜之物。云技術很流行,我們也承認,它們在簡歷上看起來很受歡迎。恐怕這就是現在市面上有很多云BI的原因。但遷移到云是否總體上推動了BI行業的發展?它是否讓企業用戶更喜歡其BI應用軟件?我不這么認為。
相反,滿腔熱情的產品經理在企業BI應用軟件中開發“酷炫”的功能,興高采烈的銷售人員完成交易,激動難捺的CIO獲得了一項被Gartner譽為今年引領潮流的新技術,無聊的企業用戶打開這些應用軟件,只是將數據從上面下載到Excel中。然后我們想知道為什么BI的采用率如此之低。
BI會往哪個方向發展?這個問題提得好。我將商業智能視為一組工具和方法,從可用數據中提取知識、積累和共享知識,并利用知識來推理業務問題。
也許,我們應該試著通過質疑行業的信條或理念來重新審視BI,而不是為圖表中沒用的動畫感到興奮。質疑數據可視化在商業智能中的作用,你覺得怎么樣?不用說,數據可視化是BI的重要組成部分。沒有數據可視化的BI是不可想象的。但原因何在?數據可視化是一種從準備好的數據生成知識的神奇方法。
Stephen Few將他的一本書取名為《Now You See It》,正是由于數據可視化令人大開眼界。以特定的方式呈現數據,以便數據擁有的知識變得不言自明,無須贅言。但數據可視化也是一門高度復雜的學科。將數據可視化使其不言自明是一項高級技能,需要多年的實踐才能養成。Tableau Zen Master稱號的存在是有原因的。
也許我們應尋找使數據可視化更容易的方法?Tableau在降低門檻方面做得很好,但為什么止步于此?或者,除了數據可視化外,我們應該嘗試尋找實用又方便的方法從數據中提取知識。需要有其他簡單又方便的方法來構建和維護圍繞數據的知識體系,需要人們積累、發現和彼此輕松分享知識的方法,需要使解釋不言自明的方法。可惜業界在這方面做得很少。
我們可能還應該對BI流程的推理部分做一些事情,因為它在很大程度上仍處于BI應用軟件的范圍之外,即使用于推理只需要商業智能,除此之外不需要別的。目前,我們不太了解從BI獲得的知識如何用于決策以及這些知識到底如何影響決策。知識提取和推理之間的關系目前沒有被軟件所獲取,因此是不可審計、不可探索、不可管理的。
我不知道治愈BI行業的“良方”會是什么樣子,但我知道什么表明良方有效——它應該將工作生產力提升到一個全新的水平。主流用戶絕對討厭這個想法:恢復到舊的做事方式。
最后,容我向決定采購BI和數據準備工具的IT經理給出一番建議。
下面幾條建議針對不希望看到這個局面的這群人:投入了巨額預算和許多人的精力,到頭來發現你的同事背地里討厭你強加給他們的嶄新BI平臺,想方設法避而遠之:

1、將很高的用戶采用率作為采購BI平臺的主要目標。

2、記住你可能不是BI應用軟件的最典型用戶,因此你對可用性和實用性的看法可能沒有看起來那么重要。優先考慮在新應用軟件上花費的時間會比你更多的那些人的反饋。

3、不要就因為某個系統是“免費的”或“無論如何是捆綁的”而強迫你的用戶使用它。免費的東西可能有很高的間接成本。

4、堅持使用無聊乏味的基本功能。學會淡化“酷炫”功能,并對營銷人員吹噓基于AI或使用某種“魔法”的產品保持謹慎。它們的唯一用途可能是讓你這個決策者留下深刻印象,或者在決策清單上打勾。

5、別理睬運行速度慢的軟件。速度慢的軟件其實非常昂貴。

6、在做出最終決定之前,應毫不猶豫地進行長時間的試用。讓幾組用戶使用不同的建議工具,在幾個月內針對實際任務的真實數據試一下效果。

7、表明軟件應用程序是正確選擇的一個有效指標是,企業用戶不喜歡沒有它這個想法。如果他們不在乎有沒有它,請繼續尋找,或考慮完全放棄購買任何產品的想法。

]]>
http://m.1921681-1.com/17147.html/feed 0
BI的痛在哪?BI怎么才能破局? http://m.1921681-1.com/17146.html http://m.1921681-1.com/17146.html#respond Mon, 10 Mar 2025 08:53:03 +0000 http://m.1921681-1.com/17146.html 1、研究結論:BI最痛的3件事

1)缺少價值認同感:比如管理層不夠重視BI,BI輸出的意見不被采納,無法推動落地,長期被低價值的報表、驗數類需求圍攻,被視作人肉取數器,無法融入到業務中;

2)數據生產資料不足,且管理混亂:比如底層數據臟亂差、需要的數據沒有、指標定義混亂;

3)對成長的焦慮:比如成長慢,找不到分析思路和方法,對未來職業發展沒有信心;

2、做BI最痛的3件事之BI原聲由于部分用戶原聲高度重疊,所以只展示有代表性的原聲。 
分析師A
1)CEO不足夠重視數據的價值、BI的價值。2.BI的建議不能執行落地。3.數據中臺無法高效支撐。 
分析師B
1)業務不穩定、迭代快,分析師的分析迭代成本太高。2.和ETL的協作難度大,效率低。3.BI對業務帶來的直接幫助和價值怎么衡量? 
分析師C
1)業務想不清楚需求,也不知道自己要什么,漫無目的提很多數據需求,抱著試數據的態度看數據。
2)BI給出的觀點、意見,業務擱置一旁,不采納,不實施。
3)業務為了KPI造口徑,造對比區間。而BI在這個過程中,起不到對目標設定/計算方式的客觀的決定作用,只能被動按照業務需要去滿足。 
分析師D
1)業務經常毫無理由的diss數據錯誤,數據鏈路很復雜,有可能是指標定義問題,有可能是系統問題,也有可能是ETL加工出錯,不是BI的問題呀。
2)加班加點的對接低價值的數據,月報十幾頁,真心懷疑有人看嗎?但還要熬夜把數據扣準,廢了老命,可能老板只是臨時想起來,但我們得半夜起來弄,結果可能老板壓根都沒看。
3)業務把你當人肉取數器,總是說你給我弄下這個數據,我要做判斷了,辛辛苦苦弄完數,業務說你可以走了,我們還要接著討論。 
分析師E
1)怎么樣能和業務負責人對焦,找對方向,找對問題,聚焦?
2)怎樣能理解商業,并有效的參與業務討論中,并通過數據推動業務? 
分析師F
1)底層數據臟亂差,想要的數據沒有或者不對。2.數據口徑不一致,數據核對校驗工作量大。3.需求背后,如何有深層次商業問題的洞察。
分析師G
1)基礎數據支持和分析工作的時間協調困難,取數、報表這樣的基礎工作占據了大部分時間,部門里很多人都在做這樣的工作,沒時間做商業分析,分析師的成長緩慢;2)分析方向和方案的輸出把握不準;3.擔心分析師的價值不夠,害怕未來這個行業被替代或消失;
3、一張圖看BI工作的上下游

BI的痛在哪?BI怎么才能破局?

BI承接上游的需求,明確需求背后的動機后,再對需求拆解,進而形成分析思路,再從下游獲取數據,而后輸出分析報告,再得到分析價值反饋,很可能還需要追加分析。

這其中,任何一個環節不給力,都會對BI形成壓力。

4、BI的用戶:不理解數據或不清楚自己要什么 

BI的需求來自CEO、管理層、業務方,每個需求方對數據的認知不一樣,商業判斷力也不一樣。 同樣是CEO,財務背景的CEO對數據敏感度高,數據敏感度高導致大佬們不需要BI解讀數據,只要BI告訴他客觀數據就可以,因為他對數據的解讀比BI還厲害。銷售出身的CEO有的懂數據,有的一知半解。其他背景的就不好說,管理層受自身過往經驗、認知的影響,又身處高位,有自己的判斷,且判斷不輕易被改變。 如果大佬們不理解數據,中層、一線業務小二們往往更不理解數據,因為很多企業的運作自上而下。 如果有個大佬,每天要和他的團隊review數據,那這條線的BI就該笑了,因為他們會被需求方重度依賴,自然也多了機會。

而現實往往比較殘酷。經常是大佬們臨時想起來要看個/些數,他們也不知道數據背后的流轉、邏輯,還把BI當成乙方的角色,心里想著數據不就得按照我想的來。根據菩提的觀察,越傳統的行業,對數據的認知越處于石器時代。 即使在數據大行其道的今天,依然有些合作伙伴不了解數據。我們和某業務管理團隊溝通數據需求,業務老大說,我是傳統行業過來的,不懂數據,我提不出需求。 除了需求方不了解數據,同時,需求方可能商業判斷力也不太夠,沒有體系化的思維,不知道業務哪里出問題了,也不知道BI能幫他解決什么,于是變成條件反射,提各種臨時、瑣碎的需求給BI,口頭禪變成你們BI從數據上看看吧。 這時候,BI不管出于什么樣的原因,如果無法輸出高價值的商業分析,又處在乙方位置,價值感就會油然下降。 進而,需求方就會對臨時、瑣碎的數據需求形成依賴、慣性。因為需求方不知道BI能做什么,BI也沒有告訴需求方BI可以做什么,仿佛雙方都接受了臨時取數的現狀。長此以往,對BI來說就很難從沼澤地抽身出來。 這種情況下,BI必然痛,痛在沒有價值,痛在對成長焦慮。

5、BI的數據生產資料不足 

巧婦難為無米之炊。BI依賴好的數據中臺、數據倉庫,如果底層數據質量差或者數據缺失,就是BI的災難。BI如果有10分的時間,可能6分得用在數據獲取、清洗、校驗上。 BI和ETL的協同一直是常見問題,BI把自己當ETL來用的情況,不少見。 殘酷的現實:業務先行,技術為了滿足業務需求,忙著搭系統,顧不上數據,甚至都沒想起來數據,也沒有數據的意識,系統遷移、接口變化未必告知數據,更不要說數據采集、數據規范之類問題。或者業務系統本身就是個半吊子,一部分數據在系統,一部分數據在線下維護。這種情況下,數據集市、數據倉庫必然難以滿足BI的需求,其實ETL也是被背鍋的。

在企業一定的發展階段,數據建設差,可以理解。因為所有的企業必須先活下來,活下來就需要業務滾起來,資源向業務、向銷售傾斜,BI、ETL的人又貴,產出還不直接,導致數據建設遲遲沒有進展。 隨著企業發展到一定階段,數據會成為制約企業發展的瓶頸。菩提溝通過的有些企業就面臨這樣的現狀,公司幾百號人,沒有1個專業做數據的人,又似乎從業務到財務,人人都在看數據。他們再不做數據化的管理,管理邊界就無法擴大,團隊中人人竭盡洪荒之力從各個系統中,給自己和老板找數據,但各團隊的數據從來沒對齊過,管理無處下手。 這種情況,一方面取決于管理層怎么看待數據化運營和管理,以及企業長期發展,另一方面也取決于數據團隊的戰果能不能說服管理層。 底層數據質量差的問題,對于BI個體來說,在短時間內很難改變,我們能改變的只有自己。 

6、BI自身:商業分析的意識、思維、方法不夠 

打鐵需要自身硬。自己硬氣的話,需求方再不靠譜,底層數據再差,依然能找到自己的價值。 最糟糕的是,被需求方和底層數據同時夾擊,自己又無力還招,這種狀況持續得不到緩解,就只能越來越越痛。缺少價值感、生產資料不足、對成長焦慮,這3個痛還時常并發。

有人覺得分析師未來的成長空間小,崗位會被替代。 菩提的理解:會被替代的是低價值、可以標準化的流水線工作,商業分析需要好的商業洞察、分析框架和邏輯、分析方法,很難被替代。
好的分析師和好的產品經理一樣,1人難求。頂級的分析師最重要的特質是商業敏感度、思維方式,看看那些投行里的分析師齁貴齁貴,這種分析師到哪都搶手,做好了,不用擔心以后沒有機會。 少些焦慮,把能量放在思考、學習上,提升分析質量是關鍵、王道。信心和價值要靠自己賺回來。
BI受需求方和底層數據的兩面夾擊,需要有好的內功(商業洞察力、分析能力、溝通能力),一方面理清需求,超越需求(1號位思維),進行問題拆解,一方面從各種渠道獲取數據(BI不止從數據倉庫拿數據,也要向市場、行業、用戶拿數據),而后用系統化的方法去分析、驗證,最后產出分析報告。 內功不到位,又被需求和數據源雙面夾擊,生存和發展當然就難。內功到位,則可以向需求、數據源兩個方向都給自己撐開空間。需求和數據源是外因,以一己之力,很難快速改變,只能緩解,練內功才是正解。

7、對BI破局的小結:

互聯網和數據發展階段,決定了BI現在的痛無法避免。

緩解這種痛需要組織和自己的努力。

組織上:

1)為BI努力,構造好的氛圍,包括理解大家的痛苦

2)巧借各種場合向業務、管理層宣講BI的規劃、職能定位

3)職能上保障BI在商業分析上的投入;

個人努力:

1)清醒的認識到1萬個臨時取數也換不來商業分析的能力

2)深貼業務,做業務的大腦,不是維修師、預警器

3)多跑市場&客戶,立體了解業務,提高商業判斷力;

4)找1-2個機會點突破,嘗試商業分析;

5)結識高手;

]]>
http://m.1921681-1.com/17146.html/feed 0
數據分析書籍清單,數據分析參考書籍,深入淺出數據分析 http://m.1921681-1.com/17145.html http://m.1921681-1.com/17145.html#respond Mon, 10 Mar 2025 08:53:02 +0000 http://m.1921681-1.com/17145.html 作為一個多年的數分人,以前還是看了很多關于相關的書籍滴!結合自身多年的數據分析經驗以及數據分析師需要的專業性技能,花了兩周的時間梳理分析了亞馬遜、貼吧、豆瓣、知乎等平臺,關于數據分析相關書籍的觀點與評論,專門整理了一下數據分析從初階篇到進階篇的書籍清單,希望對小伙伴們有所幫助哦~需要的小伙伴趕緊收藏起來吧~~以防走丟喲~~

數據分析書籍清單,數據分析參考書籍,深入淺出數據分析

1 數據分析書籍清單-初階篇

數據分析初階書籍清單,適合對數據分析的入門者,是從小白到精通的第一階段,看了下面這幾本書,有利于小伙伴們掌握數據分析基本思維和邏輯,以及吸收數據分析相關基礎理論知識哦~~

?了解數據分析思維模式

在學數據分析過程中,可以先了解一下數據分析的基本思維邏輯,了解數據分析掌握數據分析思維,適合看的書籍是《數據分析之道》,然后就會對數據分析思維有個初步的認識,一定有所收獲~~

?明確數據分析具體內容

其次,在了解了數據分析基本思維的基礎之上,整體上對數據分析有一個全方位、多角度、深層次的認識是很重要的,了解學習什么是數據分析以及數據分析的具體內容,推薦看的書籍是《深入淺出數據分析》+《誰說菜鳥不會數據分析》(這兩本書籍我看有很多人推薦的哈,確實很適合數據分析入門哦),這兩本書籍內容簡單但也比較全面,包含各種案例內容豐富哦~~,非常適合初學者哦或者想要轉行的小伙伴~~

?夯實數據分析理論基礎

最后,在具有一定數據分析思維和明白數據分析具體含義的情況下,需要的就是打牢自身基礎,學習相關基礎理論知識啦~看數據分析基礎理論知識相關書籍,量不在多,在于精,數據分析需要的基礎理論知識主要有統計學、概率論、機器學習、深度學習等,其中統計學是數據分析最主要的基礎知識之一,在數據分析師需求的技能中占有舉足輕重的作用,可以去招聘網上看看很多數據分析師招聘要求的條件中很多都有統計學相關專業優先哦~~。這部分內容推薦小伙伴們看看這兩本書哦《深入淺出統計學》《赤裸裸的統計學》~~看完以后會對數據分析需求的基礎理論知識會有一個新的認知~~

2 數據分析書籍清單-進階篇

數據分析中階書籍清單,在有了一定的數據分析思維和數據分析知識理論基礎之后,還需要深入學習一些數據分析工具,結合數據分析模型,做一些業務相關的實際場景分析,將數據的潛在價值挖掘出來,為企業發展方向和決策,提供一定的數據支撐和決策建議。

?掌握數據分析工具

想要成為一名優秀的數據分析師,數據分析工具那是必不可少的哦~所有的數據分析師都會有一個自身擅長的數據分析軟件滴,關于數據分析工具的話,至少需要掌握兩種工具:+分析建模(個人比較推薦PYTHON)。

數據庫的話,推薦書籍《SQL必知必會》,內容全面,語言精練,看完以后,掌握基本的數據庫語言是肯定木有問題滴!

至于分析建模的話推薦第一本書籍《利用Python進行數據分析》,Python是很多數據分析師必須掌握的數據分析工具,用途很廣泛,這本書的作者是Wes McKinney,具有多年的數據分析經驗,所數據分析具有深刻的見解和認識,書中對于數據分析最重要內容(numpy,pandas,matplotlib等等)講解的很到位很詳盡,還有很多數據分析實戰案例幫助大家理解學習,是一本很不錯的書籍哦~感興趣的小伙伴們可以仔細去看看~~

至于分析建模的話推薦第二本書籍《Python數據挖掘:概念、方法與實踐》,該書基于Python編程語言和基礎結合實際項目案例,將數據挖掘相關的內容和概念(關聯規則分析、實體匹配、網絡分析、文本分析、異常值等)講述的有條有理,有助于讀者理解掌握如何使用Python去做數據挖掘去做數據分析,看完以后將會對如何使用數據分析工具解決實際問題有個嶄新的認識~

?實現數據分析實戰

在掌握一定的數據分析理論基礎+數據分析工具之后,就是結合各行各行業的實際業務情況,對數據進行收集、處理、分析、建模,挖掘數據中的潛在價值,把數據資產的作用最大化~。在這個階段為大家推薦書籍《精益數據分析》《網站分析實戰》《數據化管理》,這幾本書籍都是結合實際業務,運用相應的數據分析工具,解決實際問題,看完以后,我相信小伙伴們必定會有收獲頗豐的感覺哦~~《精益數據分析》著重講了如何運用數據指導產品和運營,結合了大量的實際應用場景,對業務模式的成長歸納的很到位哈;《網站分析實戰》,該書主要是著重講述了分析方法和分析對象,包含大量的實際案例數據、用戶特征分析,之一本很值得閱讀的書籍哦~;《數據化管理》,該書主要是以零售電商行業為例,講述數據分析的主要過程和作用,非常適合想要入行數據分析的小伙伴們~~

]]>
http://m.1921681-1.com/17145.html/feed 0
數據統計分析的16個基礎概念 http://m.1921681-1.com/17144.html http://m.1921681-1.com/17144.html#respond Mon, 10 Mar 2025 08:53:01 +0000 http://m.1921681-1.com/17144.html 本文介紹了數據統計分析的16個基本概念

一、描述統計

描述統計是通過圖表或數學方法,對數據資料進行整理、分析,并對數據的分布狀態、數字特征和隨機變量之間關系進行估計和描述的方法。描述統計分為集中趨勢分析和離中趨勢分析和相關分析三大部分。

集中趨勢分析:集中趨勢分析主要靠平均數、中數、眾數等統計指標來表示數據的集中趨勢。例如被試的平均成績多少?是正偏分布還是負偏分布?

離中趨勢分析:離中趨勢分析主要靠全距、四分差、平均差、方差(協方差:用來度量兩個隨機變量關系的統計量)、標準差等統計指標來研究數據的離中趨勢。例如,我們想知道兩個教學班的語文成績中,哪個班級內的成績分布更分散,就可以用兩個班級的四分差或百分點來比較。

相關分析:相關分析探討數據之間是否具有統計學上的關聯性。這種關系既包括兩個數據之間的單一相關關系——如年齡與個人領域空間之間的關系,也包括多個數據之間的多重相關關系——如年齡、抑郁癥發生率、個人領域空間之間的關系;既包括A大B就大(小),A小B就小(大)的直線相關關系,也可以是復雜相關關系(A=Y-B*X);既可以是A、B變量同時增大這種正相關關系,也可以是A變量增大時B變量減小這種負相關,還包括兩變量共同變化的緊密程度——即相關系數。實際上,相關關系唯一不研究的數據關系,就是數據協同變化的內在根據——即因果關系。獲得相關系數有什么用呢?簡而言之,有了相關系數,就可以根據回歸方程,進行A變量到B變量的估算,這就是所謂的回歸分析,因此,相關分析是一種完整的統計研究方法,它貫穿于提出假設,數據研究,,數據研究的始終。

例如,我們想知道對監獄情景進行什么改造,可以降低囚徒的暴力傾向。我們就需要將不同的囚舍顏色基調、囚舍綠化程度、囚室人口密度、放風時間、探視時間進行排列組合,然后讓每個囚室一種實驗處理,然后用因素分析法找出與囚徒暴力傾向的相關系數最高的因素。假定這一因素為囚室人口密度,我們又要將被試隨機分入不同人口密度的十幾個囚室中生活,繼而得到人口密度和暴力傾向兩組變量(即我們討論過的A、B兩列變量)。然后,我們將人口密度排入X軸,將暴力傾向分排入Y軸,獲得了一個很有價值的圖表,當某典獄長想知道,某囚舍擴建到N人/間囚室,暴力傾向能降低多少。我們可以當前人口密度和改建后人口密度帶入相應的回歸方程,算出擴建前的預期暴力傾向和擴建后的預期暴力傾向,兩數據之差即典獄長想知道的結果。

推論統計:

推論統計是統計學乃至于心理統計學中較為年輕的一部分內容。它以統計結果為依據,來證明或推翻某個命題。具體來說,就是通過分析樣本與樣本分布的差異,來估算樣本與總體、同一樣本的前后測成績差異,樣本與樣本的成績差距、總體與總體的成績差距是否具有顯著性差異。例如,我們想研究教育背景是否會影響人的智力測驗成績。可以找100名24歲大學畢業生和100名24歲初中畢業生。采集他們的一些智力測驗成績。用推論統計方法進行數據處理,最后會得出類似這樣兒的結論:“研究發現,大學畢業生組的成績顯著高于初中畢業生組的成績,二者在0.01水平上具有顯著性差異,說明大學畢業生的一些智力測驗成績優于中學畢業生組。”

其中,如果用EXCEL 來求描述統計。其方法是:工具-加載宏-勾選"分析工具庫",然后關閉Excel然后重新打開,工具菜單就會出現"數據分析"。描述統計是“數據分析”內一個子菜單,在做的時候,記得要把方格輸入正確。最好直接點選。

2、正態性檢驗:很多統計方法都要求數值服從或近似服從正態分布,所以之前需要進行正態性檢驗。常用方法:非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。

二、假設檢驗

1、參數檢驗

參數檢驗是在已知總體分布的條件下(一股要求總體服從正態分布)對一些主要的參數(如均值、百分數、方差、相關系數等)進行的檢驗。

1)U驗 :使用條件:當樣本含量n較大時,樣本值符合正態分布

2)T檢驗 使用條件:當樣本含量n較小時,樣本值符合正態分布

A 單樣本t檢驗:推斷該樣本來自的總體均數μ與已知的某一總體均數μ0 (常為理論值或標準值)有無差別;

B 配對樣本t檢驗:當總體均數未知時,且兩個樣本可以配對,同對中的兩者在可能會影響處理效果的各種條件方面扱為相似;

C 兩獨立樣本t檢驗:無法找到在各方面極為相似的兩樣本作配對比較時使用。

2、非參數檢驗

非參數檢驗則不考慮總體分布是否已知,常常也不是針對總體參數,而是針對總體的某些一股性假設(如總體分布的位罝是否相同,總體分布是否正態)進行檢驗。

適用情況:順序類型的數據資料,這類數據的分布形態一般是未知的。

A 雖然是連續數據,但總體分布形態未知或者非正態;

B 體分布雖然正態,數據也是連續類型,但樣本容量極小,如10以下;

主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、游程檢驗、K-量檢驗等。

三、信度分析

介紹:信度(Reliability)即可靠性,它是指采用同樣的方法對同一對象重復測量時所得結果的一致性程度。信度指標多以相關系數表示,大致可分為三類:穩定系數(跨時間的一致性),等值系數(跨形式的一致性)和內在一致性系數(跨項目的一致性)。信度分析的方法主要有以下四種:重測信度法、復本信度法、折半信度法、α信度系數法。

方法:

(1)重測信度法編輯:這一方法是用同樣的問卷對同一組被調查者間隔一定時間重復施測,計算兩次施測結果的相關系數。顯然,重測信度屬于穩定系數。重測信度法特別適用于事實式問卷,如性別、出生年月等在兩次施測中不應有任何差異,大多數被調查者的興趣、愛好、習慣等在短時間內也不會有十分明顯的變化。如果沒有突發事件導致被調查者的態度、意見突變,這種方法也適用于態度、意見式問卷。由于重測信度法需要對同一樣本試測兩次,被調查者容易受到各種事件、活動和他人的影響,而且間隔時間長短也有一定限制,因此在實施中有一定困難。

(2)復本信度法編輯:讓同一組被調查者一次填答兩份問卷復本,計算兩個復本的相關系數。復本信度屬于等值系數。復本信度法要求兩個復本除表述方式不同外,在內容、格式、難度和對應題項的提問方向等方面要完全一致,而在實際調查中,很難使調查問卷達到這種要求,因此采用這種方法者較少。

(3)折半信度法編輯:折半信度法是將調查項目分為兩半,計算兩半得分的相關系數,進而估計整個量表的信度。折半信度屬于內在一致性系數,測量的是兩半題項得分間的一致性。這種方法一般不適用于事實式問卷(如年齡與性別無法相比),常用于態度、意見式問卷的信度分析。在問卷調查中,態度測量最常見的形式是5級李克特(Likert)量表(李克特量表(Likert scale)是屬評分加總式量表最常用的一種,屬同一構念的這些項目是用加總方式來計分,單獨或個別項目是無意義的。它是由美國社會心理學家李克特于1932年在原有的總加量表基礎上改進而成的。該量表由一組陳述組成,每一陳述有"非常同意"、"同意"、"不一定"、"不同意"、"非常不同意"五種回答,分別記為5、4、3、2、1,每個被調查者的態度總分就是他對各道題的回答所得分數的加總,這一總分可說明他的態度強弱或他在這一量表上的不同狀態。)。進行折半信度分析時,如果量表中含有反意題項,應先將反意題項的得分作逆向處理,以保證各題項得分方向的一致性,然后將全部題項按奇偶或前后分為盡可能相等的兩半,計算二者的相關系數(rhh,即半個量表的信度系數),最后用斯皮爾曼-布朗(Spearman-Brown)公式:求出整個量表的信度系數(ru)。

(4)α信度系數法編輯:Cronbach α信度系數是目前最常用的信度系數,其公式為:

α=(k/(k-1))*(1-(∑Si^2)/ST^2)

其中,K為量表中題項的總數, Si^2為第i題得分的題內方差, ST^2為全部題項總得分的方差。從公式中可以看出,α系數評價的是量表中各題項得分間的一致性,屬于內在一致性系數。這種方法適用于態度、意見式問卷(量表)的信度分析。

總量表的信度系數最好在0.8以上,0.7-0.8之間可以接受;分量表的信度系數最好在0.7以上,0.6-0.7還可以接受。Cronbach 's alpha系數如果在0.6以下就要考慮重新編問卷。

檢査測量的可信度,例如調查問卷的真實性。

分類:

1、外在信度:不同時間測量時量表的一致性程度,常用方法重測信度

2、內在信度;每個量表是否測量到單一的概念,同時組成兩表的內在體項一致性如何,常用方法分半信度。

四、列聯表分析

列聯表是觀測數據按兩個或更多屬性(定性變量)分類時所列出的頻數表。

簡介:一般,若總體中的個體可按兩個屬性A、B分類,A有r個等級A1,A2,…,Ar,B有c個等級B1,B2,…,Bc,從總體中抽取大小為n的樣本,設其中有nij個個體的屬性屬于等級Ai和Bj,nij稱為頻數,將r×c個nij排列為一個r行c列的二維列聯表,簡稱r×c表。若所考慮的屬性多于兩個,也可按類似的方式作出列聯表,稱為多維列聯表。

列聯表又稱交互分類表,所謂交互分類,是指同時依據兩個變量的值,將所研究的個案分類。交互分類的目的是將兩變量分組,然后比較各組的分布狀況,以尋找變量間的關系。

用于分析離散變量或定型變量之間是否存在相關。

列聯表分析的基本問題是,判明所考察的各屬性之間有無關聯,即是否獨立。如在前例中,問題是:一個人是否色盲與其性別是否有關?在r×с表中,若以pi、pj和pij分別表示總體中的個體屬于等級Ai,屬于等級Bj和同時屬于Ai、Bj的概率(pi,pj稱邊緣概率,pij稱格概率),“A、B兩屬性無關聯”的假設可以表述為H0:pij=pi·pj,(i=1,2,…,r;j=1,2,…,с),未知參數pij、pi、pj的最大似然估計(見點估計)分別為行和及列和(統稱邊緣和)。

為樣本大小。根據K.皮爾森(1904)的擬合優度檢驗或似然比檢驗(見假設檢驗),當h0成立,且一切pi>0和pj>0時,統計量的漸近分布是自由度為(r-1)(с-1) 的Ⅹ分布,式中Eij=(ni·nj)/n稱為期望頻數。當n足夠大,且表中各格的Eij都不太小時,可以據此對h0作檢驗:若Ⅹ值足夠大,就拒絕假設h0,即認為A與B有關聯。在前面的色覺問題中,曾按此檢驗,判定出性別與色覺之間存在某種關聯。

需要注意:

若樣本大小n不很大,則上述基于漸近分布的方法就不適用。對此,在四格表情形,R.A.費希爾(1935)提出了一種適用于所有n的精確檢驗法。其思想是在固定各邊緣和的條件下,根據超幾何分布(見概率分布),可以計算觀測頻數出現任意一種特定排列的條件概率。把實際出現的觀測頻數排列,以及比它呈現更多關聯跡象的所有可能排列的條件概率都算出來并相加,若所得結果小于給定的顯著性水平,則判定所考慮的兩個屬性存在關聯,從而拒絕h0。

對于二維表,可進行卡方檢驗,對于三維表,可作Mentel-Hanszel分層分析。

列聯表分析還包括配對計數資料的卡方檢驗、行列均為順序變量的相關檢驗。

五、相關分析

研究現象之間是否存在某種依存關系,對具體有依存關系的現象探討相關方向及相關程度。

1、單相關:兩個因素之間的相關關系叫單相關,即研究時只涉及一個自變量和一個因變量;

2、復相關 :三個或三個以上因素的相關關系叫復相關,即研究時涉及兩個或兩個以上的自變量和因變量相關;

3、偏相關:在某一現象與多種現象相關的場合,當假定其他變量不變時,其中兩個變量之間的相關關系稱為偏相關。

六、方差分析

使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態分布總體;各總體方差相等。

分類

1、單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變量的關系;

2、多因素有交互方差分析:一頊實驗有多個影響因素,分析多個影響因素與響應變量的關系,同時考慮多個影響因素之間的關系;

3、多因素無交互方差分析:分析多個影響因素與響應變量的關系,但是影響因素之間沒有影響關系或忽略影響關系;

4、協方差分祈:傳統的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素,使之影響了分祈結果的準確度。協方差分析主要是在排除了協變量的影響后再對修正后的主效應進行方差分析,是將線性回歸與方差分析結合起來的一種分析方法。

七、回歸分析

分類:

1、一元線性回歸分析:只有一個自變量X與因變量Y有關,X與Y都必須是連續型變量,因變量y或其殘差必須服從正態分布。

2、多元線性回歸分析。

使用條件:分析多個自變量與因變量Y的關系,X與Y都必須是連續型變量,因變量y或其殘差必須服從正態分布 。

1)變呈篩選方式:選擇最優回歸方程的變里篩選法包括全橫型法(CP法)、逐步回歸法,向前引入法和向后剔除法。

2)橫型診斷方法:

A 殘差檢驗:觀測值與估計值的差值要艱從正態分布

B 強影響點判斷:尋找方式一般分為標準誤差法、Mahalanobis距離法

C 共線性診斷:

? 診斷方式:容忍度、方差擴大因子法(又稱膨脹系數VIF)、特征根判定法、條件指針CI、方差比例

? 處理方法:增加樣本容量或選取另外的回歸如主成分回歸、嶺回歸等

3、Logistic回歸分析

線性回歸模型要求因變量是連續的正態分布變里,且自變量和因變量呈線性關系,而Logistic回歸模型對因變量的分布沒有要求,一般用于因變量是離散時的情況。

分類:

Logistic回歸模型有條件與非條件之分,條件Logistic回歸模型和非條件Logistic回歸模型的區別在于參數的估計是否用到了條件概率。

4、其他回歸方法 非線性回歸、有序回歸、Probit回歸、加權回歸等

八、聚類分析

聚類與分類的不同在于,聚類所要求劃分的類是未知的。

聚類是將數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。

從統計學的觀點看,聚類分析是通過數據建模簡化數據的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。采用k-均值、k-中心點等算法的聚類分析工具已被加入到許多著名的統計分析軟件包中,如SPSS、SAS等。

從機器學習的角度講,簇相當于隱藏模式。聚類是搜索簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練實例,需要由聚類學習算法自動確定標記,而分類學習的實例或數據對象有類別標記。聚類是觀察式學習,而不是示例式的學習。

聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對于同一組數據進行聚類分析,所得到的聚類數未必一致。

從實際應用的角度看,聚類分析是數據挖掘的主要任務之一。而且聚類能夠作為一個獨立的工具獲得數據的分布狀況,觀察每一簇數據的特征,集中對特定的聚簇集合作進一步地分析。聚類分析還可以作為其他算法(如分類和定性歸納算法)的預處理步驟。

定義:

依據研究對象(樣品或指標)的特征,對其進行分類的方法,減少研究對象的數目。

各類事物缺乏可靠的歷史資料,無法確定共有多少類別,目的是將性質相近事物歸入一類。

各指標之間具有一定的相關關系。

聚類分析(cluster analysis)是一組將研究對象分為相對同質的群組(clusters)的統計分析技術。聚類分析區別于分類分析(classification analysis) ,后者是有監督的學習。

變量類型:定類變量、定量(離散和連續)變量。

樣本個體或指標變量按其具有的特性進行分類,尋找合理的度量事物相似性的統計量。

1、性質分類:

Q型聚類分析:對樣本進行分類處理,又稱樣本聚類分祈使用距離系數作為統計量衡量相似度,如歐式距離、極端距離、絕對距離等;

R型聚類分析:對指標進行分類處理,又稱指標聚類分析使用相似系數作為統計量衡量相似度,相關系數、列聯系數等。

2、方法分類:

1)系統聚類法:適用于小樣本的樣本聚類或指標聚類,一般用系統聚類法來聚類指標,又稱分層聚類;

2)逐步聚類法:適用于大樣本的樣本聚類;

3)其他聚類法:兩步聚類、K均值聚類等。

九、判別分析

1、判別分析:根據已掌握的一批分類明確的樣品建立判別函數,使產生錯判的事例最少,進而對給定的一個新樣品,判斷它來自哪個總體。

2、與聚類分析區別:

1)聚類分析可以對樣本逬行分類,也可以對指標進行分類;而判別分析只能對樣本;

2)聚類分析事先不知道事物的類別,也不知道分幾類;而判別分析必須事先知道事物的類別,也知道分幾類;

3)聚類分析不需要分類的歷史資料,而直接對樣本進行分類;而判別分析需要分類歷史資料去建立判別函數,然后才能對樣本進行分類。

3、進行分類 :

1)Fisher判別分析法 :

以距離為判別準則來分類,即樣本與哪個類的距離最短就分到哪一類,適用于兩類判別;

以概率為判別準則來分類,即樣本屬于哪一類的概率最大就分到哪一類,適用于

適用于多類判別。

2)BAYES判別分析法 :

BAYES判別分析法比FISHER判別分析法更加完善和先進,它不僅能解決多類判別分析,而且分析時考慮了數據的分布狀態,所以一般較多使用;

十、主成分分析

介紹:主成分分析(Principal Component Analysis,PCA), 是一種統計方法。通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量,轉換后的這組變量叫主成分。

在實際課題中,為了全面分析問題,往往提出很多與此有關的變量(或因素),因為每個變量都在不同程度上反映這個課題的某些信息。

主成分分析首先是由K.皮爾森(Karl Pearson)對非隨機變量引入的,爾后H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來衡量。

將彼此梠關的一組指標變適轉化為彼此獨立的一組新的指標變量,并用其中較少的幾個新指標變量就能綜合反應原多個指標變量中所包含的主要信息。

原理:在用統計分析方法研究多變量的課題時,變量個數太多就會增加課題的復雜性。人們自然希望變量個數較少而得到的信息較多。在很多情形,變量之間是有一定的相關關系的,當兩個變量之間有一定相關關系時,可以解釋為這兩個變量反映此課題的信息有一定的重疊。主成分分析是對于原先提出的所有變量,將重復的變量(關系緊密的變量)刪去多余,建立盡可能少的新變量,使得這些新變量是兩兩不相關的,而且這些新變量在反映課題的信息方面盡可能保持原有的信息。

設法將原來變量重新組合成一組新的互相無關的幾個綜合變量,同時根據實際需要從中可以取出幾個較少的綜合變量盡可能多地反映原來變量的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上用來降維的一種方法。

缺點:

1、在主成分分析中,我們首先應保證所提取的前幾個主成分的累計貢獻率達到一個較高的水平(即變量降維后的信息量須保持在一個較高水平上),其次對這些被提取的主成分必須都能夠給出符合實際背景和意義的解釋(否則主成分將空有信息量而無實際含義)。

2、主成分的解釋其含義一般多少帶有點模糊性,不像原始變量的含義那么清楚、確切,這是變量降維過程中不得不付出的代價。因此,提取的主成分個數m通常應明顯小于原始變量個數p(除非p本身較小),否則維數降低的“利”可能抵不過主成分含義不如原始變量清楚的“弊”。

十一、因子分析

一種旨在尋找隱藏在多變量數據中、無法直接觀察到卻影響或支配可測變量的潛在因子、并估計潛在因子對可測變量的影響程度以及潛在因子之間的相關性的一種多元統計分析方法。

與主成分分析比較:

相同:都能夠起到治理多個原始變量內在結構關系的作用

不同:主成分分析重在綜合原始變適的信息.而因子分析重在解釋原始變量間的關系,是比主成分分析更深入的一種多元統計方法

數據統計分析的16個基礎概念

用途:

1)減少分析變量個數

2)通過對變量間相關關系探測,將原始變量進行分類

十二、時間序列分析

動態數據處理的統計方法,研究隨機數據序列所遵從的統計規律,以用于解決實際問題;時間序列通常由4種要素組成:趨勢、季節變動、循環波動和不規則波動。

主要方法:移動平均濾波與指數平滑法、ARIMA橫型、量ARIMA橫型、ARIMAX模型、向呈自回歸橫型、ARCH族模型。

時間序列是指同一變量按事件發生的先后順序排列起來的一組觀察值或記錄值。構成時間序列的要素有兩個:其一是時間,其二是與時間相對應的變量水平。實際數據的時間序列能夠展示研究對象在一定時期內的發展變化趨勢與規律,因而可以從時間序列中找出變量變化的特征、趨勢以及發展規律,從而對變量的未來變化進行有效地預測。

時間序列的變動形態一般分為四種:長期趨勢變動,季節變動,循環變動,不規則變動。

時間序列預測法的應用:

系統描述:根據對系統進行觀測得到的時間序列數據,用曲線擬合方法對系統進行客觀的描述;

系統分析:當觀測值取自兩個以上變量時,可用一個時間序列中的變化去說明另一個時間序列中的變化,從而深入了解給定時間序列產生的機理;

預測未來:一般用ARMA模型擬合時間序列,預測該時間序列未來值;

決策和控制:根據時間序列模型可調整輸入變量使系統發展過程保持在目標值上,即預測到過程要偏離目標時便可進行必要的控制。

特點:

假定事物的過去趨勢會延伸到未來;

預測所依據的數據具有不規則性;

撇開了市場發展之間的因果關系。

①時間序列分析預測法是根據市場過去的變化趨勢預測未來的發展,它的前提是假定事物的過去會同樣延續到未來。事物的現實是歷史發展的結果,而事物的未來又是現實的延伸,事物的過去和未來是有聯系的。市場預測的時間序列分析法,正是根據客觀事物發展的這種連續規律性,運用過去的歷史數據,通過統計分析,進一步推測市場未來的發展趨勢。市場預測中,事物的過去會同樣延續到未來,其意思是說,市場未來不會發生突然跳躍式變化,而是漸進變化的。

時間序列分析預測法的哲學依據,是唯物辯證法中的基本觀點,即認為一切事物都是發展變化的,事物的發展變化在時間上具有連續性,市場現象也是這樣。市場現象過去和現在的發展變化規律和發展水平,會影響到市場現象未來的發展變化規律和規模水平;市場現象未來的變化規律和水平,是市場現象過去和現在變化規律和發展水平的結果。

需要指出,由于事物的發展不僅有連續性的特點,而且又是復雜多樣的。因此,在應用時間序列分析法進行市場預測時應注意市場現象未來發展變化規律和發展水平,不一定與其歷史和現在的發展變化規律完全一致。隨著市場現象的發展,它還會出現一些新的特點。因此,在時間序列分析預測中,決不能機械地按市場現象過去和現在的規律向外延伸。必須要研究分析市場現象變化的新特點,新表現,并且將這些新特點和新表現充分考慮在預測值內。這樣才能對市場現象做出既延續其歷史變化規律,又符合其現實表現的可靠的預測結果。

②時間序列分析預測法突出了時間因素在預測中的作用,暫不考慮外界具體因素的影響。時間序列在時間序列分析預測法處于核心位置,沒有時間序列,就沒有這一方法的存在。雖然,預測對象的發展變化是受很多因素影響的。但是,運用時間序列分析進行量的預測,實際上將所有的影響因素歸結到時間這一因素上,只承認所有影響因素的綜合作用,并在未來對預測對象仍然起作用,并未去分析探討預測對象和影響因素之間的因果關系。因此,為了求得能反映市場未來發展變化的精確預測值,在運用時間序列分析法進行預測時,必須將量的分析方法和質的分析方法結合起來,從質的方面充分研究各種因素與市場的關系,在充分分析研究影響市場變化的各種因素的基礎上確定預測值。

需要指出的是,時間序列預測法因突出時間序列暫不考慮外界因素影響,因而存在著預測誤差的缺陷,當遇到外界發生較大變化,往往會有較大偏差,時間序列預測法對于中短期預測的效果要比長期預測的效果好。因為客觀事物,尤其是經濟現象,在一個較長時間內發生外界因素變化的可能性加大,它們對市場經濟現象必定要產生重大影響。如果出現這種情況,進行預測時,只考慮時間因素不考慮外界因素對預測對象的影響,其預測結果就會與實際狀況嚴重不符。

十三、生存分析

用來研究生存時間的分布規律以及生存時間和相關因索之間關系的一種統計分析方法:

1、包含內容:

1)描述生存過程,即研究生存時間的分布規律

2)比較生存過程,即研究兩組或多組生存時間的分布規律,并進行比較

3)分析危險因素,即研究危險因素對生存過程的影響

4)建立數學模型,即將生存時間與相關危險因素的依存關系用一個數學式子表示出來。

2、方法:

1)統計描述:包括求生存時間的分位數、中數生存期、平均數、生存函數的估計、判斷生存時間的圖示法,不對所分析的數據作出任何統計推斷結論

2)非參數檢驗:檢驗分組變量各水平所對應的生存曲線是否一致,對生存時間的分布沒有要求,并且檢驗危險因素對生存時間的影響。

A 乘積極限法(PL法)

B 壽命表法(LT法)

3)半參數橫型回歸分析:在特定的假設之下,建立生存時間隨多個危險因素變化的回歸方程,這種方法的代表是Cox比例風險回歸分析法

4)參數模型回歸分析:已知生存時間服從特定的參數橫型時,擬合相應的參數模型,更準確地分析確定變量之間的變化規律

十四、典型相關分析

相關分析一般分析兩個變量之間的關系,而典型相關分析是分析兩組變量(如3個學術能力指標與5個在校成績表現指標)之間相關性的一種統計分析方法。

典型相關分析的基本思想和主成分分析的基本思想相似,它將一組變量與另一組變量之間單變量的多重線性相關性研究轉化為對少數幾對綜合變量之間的簡單線性相關性的研究,并且這少數幾對變量所包含的線性相關性的信息幾乎覆蓋了原變量組所包含的全部相應信息。

十五、R0C分析

R0C曲線是根據一系列不同的二分類方式(分界值或決定閾).以真陽性率(靈敏度)為縱坐標,假陽性率(1-特異度)為橫坐標繪制的曲線。

用途:

1、R0C曲線能很容易地査出任意界限值時的對疾病的識別能力

用途;

2、選擇最佳的診斷界限值。R0C曲線越靠近左上角,試驗的準確性就越高;

3、兩種或兩種以上不同診斷試驗對疾病識別能力的比較,一股用R0C曲線下面積反映診斷系統的準確性。

十六、其他分析方法

多重響應分析、距離分祈、項目分祈、對應分祈、決策樹分析、神經網絡、系統方程、蒙特卡洛模擬等。

決策樹分析與隨機森林:盡管有剪枝等等方法,一棵樹的生成肯定還是不如多棵樹,因此就有了隨機森林,解決決策樹泛化能力弱的缺點。(可以理解成三個臭皮匠頂過諸葛亮)。

決策樹(Decision Tree)是在已知各種情況發生概率的基礎上,通過構成決策樹來求取凈現值的期望值大于等于零的概率,評價項目風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。在機器學習中,決策樹是一個預測模型,他代表的是對象屬性與對象值之間的一種映射關系。Entropy = 系統的凌亂程度,使用算法ID3, C4.5和C5.0生成樹算法使用熵。這一度量是基于信息學理論中熵的概念。

決策樹是一種樹形結構,其中每個內部節點表示一個屬性上的測試,每個分支代表一個測試輸出,每個葉節點代表一種類別。

分類樹(決策樹)是一種十分常用的分類方法。他是一種監管學習,所謂監管學習就是給定一堆樣本,每個樣本都有一組屬性和一個類別,這些類別是事先確定的,那么通過學習得到一個分類器,這個分類器能夠對新出現的對象給出正確的分類。這樣的機器學習就被稱之為監督學習。

優點:決策樹易于理解和實現,人們在在學習過程中不需要使用者了解很多的背景知識,這同時是它的能夠直接體現數據的特點,只要通過解釋后都有能力去理解決策樹所表達的意義。

對于決策樹,數據的準備往往是簡單或者是不必要的,而且能夠同時處理數據型和常規型屬性,在相對短的時間內能夠對大型數據源做出可行且效果良好的結果。

易于通過靜態測試來對模型進行評測,可以測定模型可信度;如果給定一個觀察的模型,那么根據所產生的決策樹很容易推出相應的邏輯表達式。

缺點:對連續性的字段比較難預測;對有時間順序的數據,需要很多預處理的工作;當類別太多時,錯誤可能就會增加的比較快;一般的算法分類的時候,只是根據一個字段來分類。

]]>
http://m.1921681-1.com/17144.html/feed 0
中文字幕日韩一区_久久久精品久久久久_国产一区中文字幕_亚洲欧美日本国产
亚洲美女毛片| 香蕉乱码成人久久天堂爱免费| 国产麻豆精品视频| 国产麻豆精品theporn| 国产亚洲欧洲| 亚洲韩国精品一区| 一区二区三区四区精品| 99国产精品99久久久久久| 亚洲视频网在线直播| 亚洲午夜电影| 久久电影一区| 欧美黑人在线观看| 国产精品热久久久久夜色精品三区 | 国产精品一卡| 国产伦精品一区二区三区照片91 | 红桃视频国产精品| 国产一区二区三区四区| 国产伊人精品| 亚洲丶国产丶欧美一区二区三区| 狠狠v欧美v日韩v亚洲ⅴ| 最新精品在线| 亚洲视频一区在线| 中文在线不卡| 先锋亚洲精品| 欧美有码在线视频| 久久综合久久综合九色| 麻豆成人综合网| 欧美人成在线| 国产精品久久激情| 国产精品一区毛片| 国产婷婷色一区二区三区四区| 在线国产精品一区| 亚洲麻豆av| 久久久久一区| 久久亚洲电影| 欧美国产精品久久| 国产精品久久久久久妇女6080| 国产婷婷精品| 一区在线免费| 日韩视频中午一区| 在线午夜精品自拍| 午夜在线a亚洲v天堂网2018| 蜜桃av综合| 欧美天天综合网| 国产麻豆精品在线观看| 国产偷久久久精品专区| 亚洲日本中文字幕| 亚洲精品国产精品久久清纯直播| 一区二区三区**美女毛片| 亚洲欧美国产日韩天堂区| 久久综合成人精品亚洲另类欧美| 欧美日韩一级视频| 国产手机视频一区二区| 亚洲精品国产日韩| 欧美一区二区三区免费在线看| 欧美成人激情视频| 欧美日韩麻豆| 国产午夜精品一区二区三区欧美 | 欧美日韩成人一区| 国产一区二区久久久| 亚洲国产精品视频一区| 久久精品国产亚洲一区二区三区| 欧美日韩精品免费看| 精品88久久久久88久久久| 午夜一级久久| 国产精品va在线播放| 日韩亚洲成人av在线| 欧美福利网址| 亚洲高清三级视频| 久久精品91久久久久久再现| 国产久一道中文一区| 亚洲自拍偷拍色片视频| 国产精品久久久久久户外露出 | 久久五月激情| 一区二区视频免费在线观看| 欧美伊人久久久久久久久影院 | 久久蜜桃香蕉精品一区二区三区| 国产女优一区| 欧美一区午夜视频在线观看| 国产精品一区二区久久国产| 9久草视频在线视频精品| 欧美激情一二区| 99精品国产热久久91蜜凸| 欧美ed2k| 亚洲精品极品| 欧美福利电影网| 91久久久久久| 另类国产ts人妖高潮视频| 亚洲福利专区| 欧美激情 亚洲a∨综合| 99精品欧美一区二区三区综合在线 | 蜜桃精品久久久久久久免费影院| 黄色成人在线网址| 免费不卡亚洲欧美| 亚洲国产精品一区二区久| 男人插女人欧美| 亚洲国产天堂久久国产91| 欧美日本在线| 一区二区三区黄色| 国产精品激情电影| 国产精品99久久久久久白浆小说 | 久久先锋资源| 狠色狠色综合久久| 欧美成年人网| 亚洲精品久久视频| 欧美日韩三级电影在线| 在线亚洲一区| 国产精品永久免费| 久久精彩免费视频| 在线观看日韩国产| 久色婷婷小香蕉久久| 日韩午夜电影在线观看| 欧美日韩中文字幕精品| 亚洲欧美视频在线观看| 国产亚洲精品综合一区91| 欧美影视一区| 亚洲国产精品一区二区久| 欧美精品v日韩精品v国产精品| 一区二区福利| 国产日韩一区欧美| 久久欧美中文字幕| 亚洲精品国产精品国自产观看| 99re6这里只有精品| 国产精品无码专区在线观看| 久久久亚洲国产美女国产盗摄| 亚洲欧洲综合| 国产美女扒开尿口久久久| 久久网站热最新地址| 中文在线不卡视频| 国产亚洲女人久久久久毛片| 免费成人毛片| 性色av一区二区三区红粉影视| 亚洲国产成人久久| 国产精品爽爽ⅴa在线观看| 免费观看在线综合| 亚洲欧美亚洲| 亚洲精品国偷自产在线99热| 国产视频一区二区三区在线观看| 欧美激情1区2区3区| 性欧美大战久久久久久久免费观看| 亚洲国产精品t66y| 国产精品亚洲不卡a| 欧美高清视频一二三区| 欧美一区二区福利在线| 亚洲免费精彩视频| 黄色成人在线观看| 国产精品激情| 国产精品久久久久久久久免费桃花| 久久免费黄色| 亚洲欧美日韩一区二区三区在线观看 | 欧美在线视频a| 99视频一区| 亚洲国产黄色| 国产一区二区精品在线观看| 国产精品久久波多野结衣| 欧美国产精品v| 久久久久国产成人精品亚洲午夜| 亚洲午夜激情网站| 亚洲理论电影网| 一区二区三区在线免费播放| 国产精品老女人精品视频| 欧美韩国日本一区| 久久综合福利| 欧美影院成人| 亚洲一卡久久| 夜夜夜精品看看| 亚洲高清av在线| 激情av一区| 国产亚洲福利社区一区| 国产精品欧美日韩| 欧美日韩亚洲一区二区| 欧美高清视频一区| 另类酷文…触手系列精品集v1小说| 性18欧美另类| 亚洲一区二区在线| 在线亚洲观看| 99pao成人国产永久免费视频| 亚洲国语精品自产拍在线观看| 伊人色综合久久天天五月婷| 国模私拍一区二区三区| 国产亚洲欧美日韩美女| 国产模特精品视频久久久久| 国产精品xxxxx| 欧美日韩一区二区国产| 欧美伦理在线观看| 欧美激情一区二区三区成人| 欧美不卡视频一区发布| 欧美aⅴ一区二区三区视频| 久久亚洲精品欧美| 久久蜜臀精品av| 久久五月天婷婷| 久久欧美肥婆一二区| 久久久夜夜夜| 久久久久久久久岛国免费| 久久久久久久综合| 久久久91精品国产一区二区三区 | 夜夜爽99久久国产综合精品女不卡| 亚洲日本欧美天堂| 亚洲精品国产精品国自产观看浪潮| 最新精品在线| 99精品久久| 亚洲午夜久久久| 亚洲影院免费| 亚洲欧美怡红院|