在統計學中為什麼要對變數取對數

2021-03-04 04:41:01 字數 1139 閱讀 7879

1樓:匿名使用者

告訴你為什麼資料要取對數

平時在一些資料處理中,經常會把原始資料取對數後進一步處理。之所以這樣做是基於對數函式在其定義域內是單調增函式,取對數後不會改變資料的相對關係,取對數作用主要有:

1. 縮小資料的絕對數值,方便計算。例如,每個資料項的值都很大,許多這樣的值進行計算可能對超過常用資料型別的取值範圍,這時取對數,就把數值縮小了,例如tf-idf計算時,由於在大規模語料庫中,很多詞的頻率是非常大的數字。

2. 取對數後,可以將乘法計算轉換稱加法計算。

3. 某些情況下,在資料的整個值域中的在不同區間的差異帶來的影響不同。例如,中文分詞的mmseg演算法,計算語素自由度時候就取了對數,這是因為,如果某兩個字的頻率分別都是500,頻率和為1000,另外兩個字的頻率分別為200和800,如果單純比較頻率和都是相等的,但是取對數後,log500=2.

69897, log200=2.30103, log800=2.90308 這時候前者為2log500=5.

39794, 後者為log200+log800=5.20411,這時前者的和更大,取前者。因為前面兩個詞頻率都是500,可見都比較常見。

後面有個詞頻是200,說明不太常見,所以選擇前者。

從log函式的影象可以看到,自變數x的值越小,函式值y的變化越快,還是前面的例子,同樣是相差了300,但log500-log200>log800-log500,因為前面一對的比後面一對更小。

也就是說,對數值小的部分差異的敏感程度比數值大的部分的差異敏感程度更高。這也是符合生活常識的,例如對於**,買個家電,如果**相差幾百元能夠很大程度影響你決策,但是你買汽車時相差幾百元你會忽略不計了。

4. 取對數之後不會改變資料的性質和相關關係,但壓縮了變數的尺度,例如800/200=4, 但log800/log200=1.2616,資料更加平穩,也消弱了模型的共線性、異方差性等。

5. 所得到的資料易消除異方差問題。

6. 在經濟學中,常取自然對數再做回歸,這時回歸方程為 lny=a lnx+b ,兩邊同時對x求導,1/y*(dy/dx)=a*1/x, b=(dy/dx)*(x/y)=(dy*x)/(dx*y)=(dy/y)/(dx/x) 這正好是彈性的定義。

當然,如果資料集中有負數當然就不能取對數了。實踐中,取對數的一般是水平量,而不是比例資料,例如變化率等。

為什麼取對數,為什麼會有對數,在統計學中為什麼要對變數取對數

gdp取對數是為了避免過度異常波動的影響。資料中有時會出現所謂的異常點,比如 因素 季節因素,因為某些原因和預想差別非常大的點,當你用log後,這些異常點會變得比較小,會縮回期望範圍內。約翰 納皮爾 j.napier 是在研究天文學的過程中,為了簡化其中的計算而發明了對數.對數的發明是數學史上的重大...

統計學中的power值是指什麼,統計學中的均值指的是什麼

power是指power of test statistic,是 來統計量的 源統計檢驗bai力 統計檢驗能du力 power of a statistical test 1 是在零假設為假應該被拒絕的情zhi況下,假設檢驗拒dao絕的概率。與犯第二類錯誤的概率互補的部分,1 稱為統計檢驗能力。1 ...

醫學統計學中的u代表什麼意思,醫學統計學中testvalue是什麼意思

u分布是標準正態分佈,是以0為平均值,以1為標準差的正態分佈。z分布是正態分佈,是以 為平均值,以 為標準差的正態分佈。對於z分布中的所有變數x,轉換為 x 時,其服從u分布。u檢驗是已知乙個正態總體的方差 1,用給定的一組樣本x1 x2,xn,檢驗總體均值 2是否等於已知常數 1的統計檢驗法。u檢...