Bài tập kiểm định chi bình phương

     

1. Khi nào sử dụng χ2

Kiểm tra Chi-square (χ2) bao gồm cả bài đánh giá Chi-bình phương một mẫu về tính chất độc lập (One-sample Chi-square thử nghiệm of independence) cùng bài đánh giá Chi-bình phương nhị mẫu về tính chất đồng nhất (Twosample Chi-square chạy thử of homogeneity) là giống như nhau về cả giám sát và đo lường và diễn giải.

Bạn đang xem: Bài tập kiểm định chi bình phương

Kiểm tra χ2 là một trong những kiểm tra sấp xỉ về mức ý nghĩa đối cùng với sự link (association) giữa hai biến đổi phân các loại (categorical variables) khi dữ liệu ở dạng đếm tần suất và côn trùng quan tâm tập trung vào số lượng đối tượng thuộc các loại khác nhau. Độ đúng đắn được kiểm tra nhờ vào vào xây đắp mẫu được sử dụng. Các tần suất là quan gần kề được trong bảng 2 × 2 (‘2’ đầu tiên cho biết thêm số sản phẩm trong bảng cùng ‘2’ thiết bị hai cho biết số cột). Hai thi công lấy mẫu phổ cập là “kiểm tra χ2 về tính chất độc lập” (χ2 thử nghiệm of independence) với tổng cộng biên của hàng với cột ngẫu nhiên và “kiểm tra χ2 về tính đồng điệu của tỷ lệ” (χ2 demo of homogeneity of proportions) với tổng cộng biên của hàng cố định và thắt chặt hoặc là cột gắng định.

(1) chất vấn χ2 một mẫu về tính chủ quyền với tổng số biên của hàng và cột ngẫu nhiên

Trong thi công này, một mẫu bất chợt được mang từ một dân số duy độc nhất vô nhị của các đối tượng nhưng với nhì thước đo cho từng đối tượng, kia là các biến nhị phân hàng với cột. Tổng kích cỡ mẫu, n, là cố định nhưng các tần suất vào cả tổng thể biên của hàng với cột là tình cờ và không theo luồng thông tin có sẵn trước hoặc cố định và thắt chặt trước. Các tần số biên ngẫu nhiên dựa vào vào biện pháp mỗi đối tượng người tiêu dùng được phân một số loại trên cả hai trở nên nhị phân. Nghĩa là, mỗi đối tượng người tiêu dùng sẽ được phân chia vào một trong bốn ô vào bảng 2 × 2.

Ví dụ, một đơn vị nghiên cứu khảo sát vai trò của gia sư giáo dục quan trọng trong chăm sóc trẻ em mắc hội chứng tự kỷ rất có thể đặc biệt suy xét mối tình dục giữa thời gian kinh nghiệm với tư giải pháp là thầy giáo (biến cột) và cảm xúc chi phối của mình với tư giải pháp là giáo viên (biến hàng). Một mẫu ngẫu nhiên duy nhất có 100 giáo viên giáo dục quan trọng được chọn từ một dân sinh những giáo viên này. đa số giáo viên giáo dục đặc trưng được hỏi nhị câu hỏi: chúng ta đã quan tâm trẻ em mắc hội chứng tự kỉ được bao lâu? (các câu vấn đáp được phân một số loại thành to hơn hoặc bằng 5 năm hoặc ít hơn năm năm), và cảm xúc chủ đạo của mình với tư cách giáo viên là gì? (các câu vấn đáp được phân loại đa số là giận giữ hoặc đồng cảm). Giả thuyết phân tích là cảm xúc về vai trò của thầy giáo giáo dục quan trọng đặc biệt có tương quan đến thời gian kinh nghiệm có tác dụng việc. Mang thuyết vô hiệu hóa là những biến hàng và cột là độc lập, kia là phần trăm (số lượng) hy vọng ​​trong từng ô của bảng tạo nên sẽ đều bằng nhau và sẽ không còn khác với con số quan gần kề được. Nói một cách tổng quát hơn, không có mối tình dục giữa thời gian là giáo viên và cảm hứng chi phối về sứ mệnh của giáo viên giáo dục đào tạo đặc biệt.

(2) đánh giá χ2 hai mẫu về tính đồng nhất của tỷ lệ với tổng biên của sản phẩm (hoặc cột) được vắt định

Thiết kế này được áp dụng để so sánh sự phân phối của hai xác suất trong hai dân sinh độc lập. Vào bảng phát sinh 2 × 2, mỗi phát triển thành được coi là nhị phân. Ví dụ: đổi mới cột vào bảng 2 × 2 rất có thể đại diện cho hai quần thể độc lập, nam cùng nữ, và biến hàng (biến phản hồi) có thể đại diện cho kết quả kiểm tra được phân loại là đã đạt được hoặc ko đạt. Nhà nghiên cứu có thể muốn điều tra xem tỷ lệ ứng viên đạt có tương quan đến giới tính hay không. Ví dụ: một mẫu ngẫu nhiên hòa bình gồm 50 nam với một mẫu mã ngẫu nhiên riêng lẻ gồm 50 nữ sẽ được chọn. Tổng cột của nam giới và phụ nữ trong ví dụ như này được cố định vì chưng nhà nghiên cứu. Mỗi nam với nữ sẽ được phân một số loại thành một nhiều loại đạt hoặc không đạt, tổng cộng biên của hàng là tự dưng (không được nhà phân tích cố định) và có thể chịu không đúng số mẫu. Nếu tỷ lệ ứng viên “đạt” được bộc lộ bằng P, thì phần trăm không đạt đã là 1-P (biến là nhị phân). Mang thuyết vô hiệu hóa sẽ là phần trăm dân số (hoặc phần trăm) của nam giới và nữ giới vượt qua kỳ thi là bởi nhau, hay nói một biện pháp khác là không có sự khác biệt giữa phái nam và thanh nữ về tỷ lệ tỷ lệ vượt qua kỳ thi. Một dạng tổng thể hơn của giả thuyết loại bỏ này là không tồn tại mối quan hệ giữa giới tính và thành tựu thi.

2. Suy luận thống kê với giả thuyết vô hiệu

Suy luận thống kê lại là về tần suất, trong số ấy số lượng những quan sát thuộc một loại cụ thể trong một đội là được so sánh với tỷ lệ các quan gần cạnh thuộc cùng một một số loại từ đội kia.

Các nhóm hoàn toàn có thể chỉ mang đến hai phép đo độc lập từ một dân sinh hoặc đến hai dân số hòa bình đã được lựa chọn ngẫu nhiên. Ví dụ, trong một phân tích về ảnh hưởng tác động của chương trình tứ duy tích cực đến sự tự tin của sv (sự tự tin tiếp xúc tăng lên / không tăng lên), kiểm soát χ2 một chủng loại về tính độc lập sẽ được thực hiện với xây dựng này để phát hiện bất kỳ mối contact nào giữa sự từ tin và giới tính xuất xắc không.Các đội cũng có thể đề cập mang đến hai dân sinh độc lập, ví dụ, vào một phân tích về mối quan hệ giữa nam nữ và các thành tích thi, hai đội học sinh cố định gồm 50 nam với 50 nữ sẽ tiến hành chọn (biến cột), kế tiếp được phân nhiều loại thành đội đạt và không đạt (biến hàng). Với kiến tạo mẫu này, đánh giá χ2 hai mẫu mã về sự đồng nhất của các tỷ lệ sẽ được áp dụng để bình chọn sự khác biệt giữa tỉ lệ phái nam và thanh nữ vượt qua kỳ thi.

Đối với đánh giá χ2 một mẫu về tính chất độc lập, các tham số được cầu tính là phần trăm của từng ô của bảng 2 × 2 trong dân số. đưa thuyết phân tích là các biến hàng cùng cột can dự với nhau, nghĩa là bọn chúng không hòa bình và tỷ lệ quan giáp được trong tứ ô là không giống nhau.

Tương tự, so với kiểm tra χ2 hai mẫu về tính đồng hóa của các tỷ lệ, những tham số được cầu tính là xác suất của mỗi ô của bảng 2 × 2 trong dân số. Trả thuyết nghiên cứu là sự việc phân phối tỷ lệ (cho một vươn lên là phân loại) là không giống nhau trong hai dân sinh (biến phân các loại kia với tổng biên cố kỉnh định).

Giả thuyết vô hiệu cho cả χ2 một mẫu mã và hai chủng loại là không tồn tại mối quan hệ tình dục giữa những biến cột và hàng. Nếu mang thuyết loại bỏ là đúng, xác suất bốn ô sẽ đều nhau và không có sự biệt lập đáng nhắc giữa gia tốc ô quan tiếp giáp được với tần số ô kỳ vọng.

Phân phối χ2 là được xác định trọn vẹn bởi một thông số duy nhất, bậc tự do (df). Bất cứ khi nào chúng ta reviews thống kê χ2, chúng ta cần xem xét df mê say hợp. Trong đó, df = (số sản phẩm − 1) × (số cột − 1) và do đó luôn luôn là giá trị ‘1’ trong bảng 2 × 2. Kiểm soát χ2 với df cung ứng một xác suất cho sự khác biệt giữa những tần suất quan gần cạnh được và gia tốc kỳ vọng. Khi gia tốc quan tiếp giáp và gia tốc kỳ vọng như nhau nhau, thống kê lại χ2 sẽ bởi không. Với ngẫu nhiên độ lệch nào, quý giá χ2 càng to thì ý nghĩa thống kê càng lớn.

3. Những giả định khám nghiệm (Test Assumptions)

Các mang định cơ bạn dạng của cả soát sổ χ2 về tính chủ quyền và tính đồng điệu cho bảng 2 × 2 là:

Các quan tiếp giáp là đại diện thay mặt tiêu biểu của những dân số quan liêu tâm.Dữ liệu sinh hoạt dạng đếm gia tốc quan sát.Các quan lại sát yêu cầu độc lập, gồm nghĩa là, một quan gần kề rơi vào bất kỳ hàng cụ thể nào của bảng gây ra không phụ thuộc vào cột nó sinh sống trong (và ngược lại).Các quan lại sát nên làm rơi vào trong 1 ô của bảng phạt sinh.Kiểm tra χ2 tránh việc được áp dụng khi bất kỳ tần suất ô hy vọng ​​nào là nhỏ. Tần số kỳ vọng nhỏ tuổi là điểm yếu phổ phát triển thành nhất vào việc sử dụng kiểm tra Chi-square (nghĩa là sử dụng sai Chi-bình phương). Cực hiếm kỳ vọng của 5 là giới hạn thấp tốt nhất tuyệt đối. Khi size mẫu tổng là ≥20, thì tần suất kì vọng ​trong một hoặc nhì ô có thể thấp mang lại 1 hoặc 2. Tuy thế Chi-square là 1 trong những quy trình mạnh khỏe và gia tốc ô mong muốn ​​2 là phân phối liên tục, cho nên vì thế việc thêm 0.5 vào từng tần số ô quan tiền sát được cho là sẽ nâng cao phép xê dịch χ2. Nói chung, phép hiệu chỉnh này chưa phải trên cơ sở định hướng mà dựa trên ứng dụng của nó do nó rất có thể dẫn đến việc mất mối cung cấp không cần thiết. Cùng với cỡ mẫu nhỏ, nên áp dụng phép thử đúng chuẩn của Fisher (Fisher, 1935) (vui lòng đọc kiểm soát Fisher).

4. Giấy tờ thủ tục kiểm tra χ2

Ví dụ, một nhà phân tích cần đánh giá xem giới tính với hiến ngày tiết tự nguyện của sinh viên đh có tình dục với nhau không. Một tập dữ liệu gồm 50 sinh viên được thu thập. Biến đổi giới tính được chia thành các mức giá thành trị 1 = nam, 2 = nữ, và vươn lên là hiến ngày tiết tự nguyện (bạn đã có lần tham gia hiến máu tự nguyện chưa?) được chia thành các mức ngân sách trị 1= yes (có), 2 = no (không).

Giả thuyết thống kê H0: Không có quan hệ giữa yếu tố giới tính và sự hiến ngày tiết tự nguyện của những sinh viên? nút alpha được lựa chọn là 5%.

Kiểm tra χ2 so sánh tần số đếm được trong mỗi ô trong bảng phát sinh với tần số đếm hy vọng ​​cho từng ô (chúng ta nên ước tính tần số kỳ vọng). Con số ô kỳ vọng ​​được mong lượng theo giả định rằng trả thuyết loại bỏ là đúng, có nghĩa là không có sự links giữa các biến hàng với cột.

Giá trị χ2 được tính cho từng ô trong bảng phát sinh được xem theo công thức:

*

Trong đó, O là tần suất ô quan gần kề được, E là gia tốc ô kì vọng.

Dữ liệu điều tra đếm tần suất được trình diễn trong bảng dưới đây:

*

Các bước bình chọn χ2:

Bước 1: Tính quý giá kì vọng cho mỗi ô từ A đến D

ô A: EA= (25×30)/50 = 15ô B: EB= (25×30)/50 = 15ô C: EC= (25×20)/50 = 10ô D: ED= (25×20)/50 = 10

Bước 2: Tính giá trị χ2 cho từng ô tự A đến D

ô A: χ2 = (18 – 15)2/ 15 = 0.6ô B: χ2 = (12 – 15)2/ 15 = 0.6ô C: χ2 = (7 – 10)2/ 10 = 0.9ô D: χ2 = (13 – 10)2/ 10 = 0.9

Bước 3: Tính tổng toàn bộ χ2

Tổng χ2 = 0.6 + 0.6 + 0.9 + 0.9 = 3.00

Cách suy đoán kết quả: Để đánh giá chân thành và ý nghĩa thống kê của thống kê lại χ2 được ước lượng sinh hoạt trên, chúng ta cần giám sát bậc trường đoản cú do tương thích cho bảng phát sinh, tại chỗ này df = 1. Tra bảng phân phối các giá trị χ2 cho tới hạn (vui lòng xem bảng trưng bày χ2), nấc alpha được chọn thứ nhất là p≤0.05, quý giá χ2 tới hạn là 3.841, là giao điểm của cột alpha sống 0.05 cùng hàng df là 1. Vì giá trị χ2 được giám sát (3.00) nhỏ tuổi hơn quý giá χ2 tới hạn (điều sẽ được mong đợi theo đưa thuyết vô hiệu hóa là không liên can giữa các biến hàng với cột) nên họ không thể chưng bỏ đưa thuyết loại bỏ và kết luận rằng hai đổi mới số, sự hiến máu tự nguyện với giới tính là không liên quan với nhau. Mặc dù tỷ lệ nam giới của 60% (18/30 × 100) so với phái đẹp 40% (12/30 × 100) gồm sự biệt lập chút ít, nhưng lại sự khác biệt này là không có ý nghĩa sâu sắc thống kê ngơi nghỉ mức chân thành và ý nghĩa p≤0.05, gồm nghĩa rằng sự hiến huyết tự nguyện với giới tính là không tương quan với nhau.

Xem thêm: Bài Tập Thiết Kế Cơ Sở Dữ Liệu Có Lời Giải, Bài Tập Thiết Kế Cơ Sở Dữ Liệu

5. Khám nghiệm χ2 vào SPSS

Trong SPSS, chúng ta thực hiện tại theo tiến trình sau:

Bước 1. Vào Analyze > Descriptives Statistics > Crosstabs…

*

Bước 2. Tại hành lang cửa số Crosstabs, đưa biến đổi giới tính (sex) vào ô Row(s) và thay đổi hiến ngày tiết tự nguyện (hienmau) vào ô Column(s). Bạn cũng có thể nhấp vào ô Display clustered bar charts nhằm hiện đồ thị mối quan hệ hai biến.

*

Bước 3. Nhấp vào tùy chọn Statistics, chọn vào Chi-square, Phi và Cramer’s V. Sau đó nhấp Continue.

*

Bước 4. Nhấp vào tùy chọn Cells, chọn Observed, Expected cùng Total như trong hình. Về chân thành và ý nghĩa thì Observed là số lượng thực tế quan sát, Expected là con số kì vọng, Total là tổng phần trăm theo từng cái và từng cột. Nếu nên hiển thị thêm cực hiếm % của các ô, họ chọn thêm Row cùng Column. Nhấp vào Continue.

*

Bước 5. Nhấp vào OK nhằm chạy kết quả

Đọc bảng kết quả:

*

Trong bảng Giới tính * Hiến ngày tiết tự nguyện? Crosstabulation, các giá trị sinh hoạt ô màu đỏ là giá trị thực tiễn quan gần cạnh được. Ví dụ, có 18 sinh viên nam thâm nhập hiến huyết tình nguyện. Tương tự, có 7 sinh viên người vợ tham gia hiến ngày tiết tình nguyện. Những giá trị ngơi nghỉ ô màu xanh là quý giá kì vọng. Ví dụ, gồm 15 sv nam được kì vọng hiến ngày tiết tự nguyện. Bao gồm 10 sinh viên bạn nữ được kì vọng hiến máu tình nguyện. Ý nghĩa của giá trị kì vọng (expected), đó là lúc có giả thiết giới tính và hiến máu tự nguyện không tồn tại quan hệ với nhau. Thì xác suất xuất hiện thêm của giới tính với sự hiến ngày tiết tự nguyện là hòa bình nhau.

*

Bảng kết quả quan trọng nhất là Chi-square test. Kiểm định Chi-bình phương chỉ có ý nghĩa sâu sắc khi số quan gần kề đủ lớn, nếu có không ít hơn 20% số ô trong bảng phát sinh có tần suất kỳ vọng (expected) nhỏ dại hơn 5 thì quý giá chi-square không còn đáng tin cậy. Cuối bảng Chi-Square Tests (ô màu sắc xanh) luôn luôn đưa ra một chiếc thông báo cho bạn biết gồm bao nhiêu % số ô có tần suất mong hóng expected value dưới 5 của bảng. Ví như trên 20% chúng ta phải tính đến các biện pháp khác, như thể sử kiểm nghiệm Fisher’s exact test.

Có 3 giá trị đề xuất lưu ý: quý giá χ2 là 3.00, quý hiếm bậc tự do df là 1, quý giá sig. Là 0.083. Do sig. > 0.05 cần có bởi chứng cho thấy hai đổi thay giới tính cùng sự hiến huyết tự nguyện là hòa bình với nhau.

Còn trường hợp sig. Bảng bày bán χ2 với bậc từ do là một trong df. Trong lấy ví dụ như này, vày giá trị χ2 cho tới hạn là 3.841 lớn hơn giá trị χ2 được đo lường và thống kê (3.00) nên họ không thể bác bỏ giả thuyết vô hiệu hóa và tóm lại rằng hai biến chuyển số, sự hiến máu tự nguyện và giới tính là không tương quan với nhau.

*

Giả sử, nếu như hai biến này còn có mối dục tình với nhau, bọn họ sẽ cần đánh giá mức độ liên kết giữa hai thay đổi qua cực hiếm của hệ số Phi cùng Cramer’s V. Hệ số Phi chỉ phù hợp để xem xét quan hệ giữa 2 biến đổi mà mỗi biến đổi chỉ bao gồm 2 giá chỉ trị, nếu một trong các hai biến tất cả từ 3 giá trị trở lên họ sẽ dùng kết quả của Cramer’s V. Trả sử trong lấy ví dụ như trên, chúng ta sẽ sử dụng thông số Phi, quý giá này là 0.083, tức 8.3%, do vậy hai phát triển thành này đối sánh thấp.

Trong nghiên cứu, kiểm nghiệm χ2 (hay hoàn toàn có thể gọi là kiểm tra Crosstab) thường xuyên được vận dụng nhiều khi chúng ta cần đối chiếu sâu hơn quan hệ giữa các điểm lưu ý nhân khẩu học của tín đồ trả lời, hoặc đối chiếu sự links giữa những yếu tố vai trung phong lí giáo dục.

6. Ý nghĩa của thông số Phi cùng Cramer’s Phi

Kiểm định χ2 nhạy cảm với cỡ mẫu và ngay gần như luôn luôn luôn có chân thành và ý nghĩa với các mẫu lớn. Chu chỉnh χ2 tấn công giá ý nghĩa sâu sắc thống kê của một link chứ chưa phải sức mạnh mẽ của liên kết. Bởi đó, thống kê kiểu đối sánh tương quan được yêu ước để khẳng định độ dũng mạnh của bất kỳ mối links có chân thành và ý nghĩa thống kê nào được phát hiện vì thống kê χ2. Hai trong các các thước đo link hữu ích nhất được áp dụng là: Φ, (Hệ số Phi) và hệ số Cramer’s V (đôi lúc được hotline là Cramer’s Phi).

*

Phi nên làm được áp dụng làm thước đo độ mạnh bạo của liên kết khi cả hai biến hóa đều là nhị phân. Phi có giới hạn dưới là 0, có nghĩa là không gồm độ mạnh liên kết (các trở thành không liên quan) và số lượng giới hạn trên là 1, độ dũng mạnh tối đa của link (các vươn lên là có tương quan hoàn hảo). Khi 1 bảng phát sinh có rất nhiều hơn bốn ô thì cần sử dụng Cramer’s V nhằm đo thời gian chịu đựng của liên kết. Tương tự như Phi, phạm vi của thống kê này đổi khác từ 0 mang đến 1.

Xem thêm: Bài Giảng Chi Tiết Máy - Giới Thiệu Môn Học Nguyên Lý

*

Trong đó, n là tổng size mẫu, j là số bé dại nhất của mặt hàng hoặc cột vào bảng phạt sinh.

Tài liệu tham khảo