Hiện tượng đa cộng tuyến hoàn hảo là gì năm 2024

Nhóm MBA Hỗ Trợ SPSS giới thiệu cách phát hiện đa cộng tuyến khi phân tích hồi quy, đồng thời giải thích hậu quả, cách khắc phục đa cộng tuyến.

Hiện tượng đa cộng tuyến hoàn hảo là gì năm 2024

Trong mô hình hồi quy, nếu các biến độc lập có quan hệ chặt với nhau, các biến độc lập có mối quan hệ tuyến tính, nghĩa là các biến độc lập có tương quan chặt, mạnh với nhau thì sẽ có hiện tượng đa cộng tuyến, đó là hiện tượng các biến độc lập trong mô hình phụ thuộc lẫn nhau và thể hiện được dưới dạng hàm số. Ví dụ có hai biến độc lập A và B, khi A tăng thì B tăng, A giảm thì B giảm…. thì đó là một dấu hiệu của đa cộng tuyến. Nói một cách khác là hai biến độc lập có quan hệ rất mạnh với nhau, đúng ra hai biến này nó phải là 1 biến nhưng thực tế trong mô hình nhà nghiên cứu lại tách làm 2 biến. Hiện tượng đa cộng tuyến vi phạm giả định của mô hình hồi qui tuyến tính cổ điển là các biến độc lập không có mối quan hệ tuyến tính với nhau.

Cách phát hiện đa cộng tuyến

Có hai cách: dựa vào hệ số phóng đại phương sai VIF, hoặc dựa vào ma trận hệ số tương quan. Tuy nhiên cách dùng ma trận hệ số tương quan ít được sử dụng, chủ yếu sửa dụng cách nhận xét chỉ số VIF.

Cách 1

Dựa vào VIF ,khi thực hiện hồi quy đa biến, ta nhấn vào nút Statistics , xong check vào Collinearity diagnostics.

Hiện tượng đa cộng tuyến hoàn hảo là gì năm 2024

Kết quả ra như sau:

Hiện tượng đa cộng tuyến hoàn hảo là gì năm 2024
Nếu hệ số phóng đại phương sai VIF (variance inflation factor) > 2 thì có dấu hiệu đa cộng tuyến, đây là điều không mong muốn. Nếu VIF > 10 thì chắc chắn có đa cộng tuyến. Nếu VIF <2: không bị đa cộng tuyến

Ta cũng có thể xem xét giá trị Tolerance bằng công thức Tolerance=1/VIF . Hệ số này nằm cột bên trái của hệ số VIF. Tương ứng là: nếu hệ số Tolerance bé hơn 0.5 thì có dấu hiệu đa cộng tuyến, đây là điều không mong muốn. Nếu giá trị Tolerance bé hơn 0.1 thì chắc chắn có đa cộng tuyến.

Cách 2

Nhận dạng Multicollinearity dựa vào hệ số tương quan,có hay không tương quan tuyến tính mạnh giữa các biến độc lập. Cách làm: xây dựng ma trận hệ số tương quan cặp giữa các biến độc lập và quan sát để nhận diện độ mạnh của các tương quan giữa từng cặp biến số độc lập. Cũng có thể nhìn vào kết quả hồi quy, ta thấy R2 cao( tầm trên 0.8) và thống kê t thấp. Tuy nhiên như đã nói thì ít khi sử dụng cách hai này. Vì nó dựa vào phán đoán chủ quan hơn là công thức như cách 1.

Hậu quả của hiện tượng đa cộng tuyến:

Sai số chuẩn của các hệ số sẽ lớn. Khoảng tin cậy lớn và thống kê t ít ý nghĩa. Các ước lượng không thật chính xác. Do đó chúng ta dễ đi đến không có cơ sở bác bỏ giả thiết “không” và điều này có thể không đúng.

Ba nguyên nhân gây ra hiện tượng đa cộng tuyến

Khi chọn các biến độc lập mối quan có quan hệ nhân quả hay có tương quan cao vì đồng thời phụ thuộc vào một điều kiện khác.

Hiện tượng Đa cộng tuyến là gì? Đa cộng tuyến hay Multicollinearity đơn giản là hiện tượng tạo nên từ mối quan hệ tương quan mạnh giữa các biến độc lập với nhau trong mô hình hồi quy tuyến tính. Hiện tượng này được thể hiện dưới dạng hàm số sau khi vi phạm giả thuyết của mô hình hồi quy tuyến tính cổ điện (Giả thuyết: Các biến độc lập không có quan hệ tuyến tính với nhau)

Vậy đa cộng tuyến là gì? Cùng nhau tìm hiểu trả lời câu hỏi đa cộng tuyến là gì phía dưới nhé, dưới đó có nhiều câu trả lời cho câu đa cộng tuyến là gì và đa cộng tuyến là gì lắm.

Hiện tượng đa cộng tuyến hoàn hảo là gì năm 2024
Đa cộng tuyến là gì (Multicollinearity)?

1. Đa cộng tuyến là gì?

Khái niệm: Đa cộng tuyến trong tiếng Anh gọi là Multicollinearity.

Đa cộng tuyến là gì? Đa cộng tuyến là hiện tượng tạo nên từ mối quan hệ tương quan mạnh giữa các biến độc lập với nhau trong mô hình hồi quy tuyến tính. Hiện tượng này được thể hiện dưới dạng hàm số sau khi vi phạm giả thuyết của mô hình hồi quy tuyến tính cổ điển. (Giả thuyết vi phạm: Các biến độc lập không có quan hệ tuyến tính với nhau)

Trong thống kê , đa cộng tuyến (cũng là tính cộng tuyến) là hiện tượng trong đó một biến dự báo trong mô hình hồi quy bội số có thể được dự đoán tuyến tính từ các biến khác với mức độ chính xác đáng kể. Trong trường hợp này, các ước lượng hệ số của hồi quy bội có thể thay đổi thất thường để đáp ứng với những thay đổi nhỏ trong mô hình hoặc dữ liệu.

Đa cộng tuyến không làm giảm sức mạnh dự đoán hoặc độ tin cậy của mô hình nói chung, ít nhất là trong tập dữ liệu mẫu; nó chỉ ảnh hưởng đến các tính toán liên quan đến các yếu tố dự đoán riêng lẻ. Nghĩa là, một mô hình hồi quy đa biến với các yếu tố dự đoán cộng tuyến có thể cho biết toàn bộ nhóm các yếu tố dự báo dự đoán biến kết quả tốt như thế nào, nhưng nó có thể không đưa ra kết quả hợp lệ về bất kỳ dự đoán riêng lẻ nào hoặc về những yếu tố dự đoán nào là dư thừa so với những người khác.

Hiện tượng đa cộng tuyến hoàn hảo là gì năm 2024
Đa cộng tuyến là gì? (Multicollineartity)

2. Nguyên nhân xảy ra hiện tượng đa cộng tuyến là gì?

Hai nguyên nhân chính xảy ra đa cộng tuyến là gì được trình bày bên dưới đây

2.1. Nguyên nhân chính làm đa cộng tuyến là gì?

Hiện tượng đa cộng tuyến xảy ra khi nào? Có nhiều nguyên nhân khác nhau nhưng nhìn chung sẽ có 2 nguyên nhân chính như sau:

  1. Dữ liệu thu thập không sát với thực tế hay chất lượng dữ liệu kém.
  2. Khi xét khía cạnh thực tế các biến trong mô hình có mối tương quan thật với nhau

2.2. Nguyên nhân phụ làm đa cộng tuyến là gì?

Trong 2 nguyên nhân chính đa cộng tuyến là gì đã trình bày ở trên sẽ có nguyên nhân phụ kèm theo tuỳ vào phương pháp thu thập dữ liệu. Các nguyên nhân bao gồm:

  • Đối với phương pháp thu thập dữ liệu thông qua bảng khảo sát thì nguyên nhân chính là do cách xây dựng các nhân tố có rất ít sự khác biệt với nhau.

(Ví dụ về đa cộng tuyến: Hai nhân tố tài chính và thu nhập chẳng hạn)

  • Đối với phương pháp thu thập dữ liệu thứ cấp như dữ liệu về tài chính, vĩ mô, biến động giá… thì nguyên nhân là do bạn thu thập sai dữ liệu cụ thể là bị nhầm lẫn các biến cần thu thập và nguyên nhân còn lại là do cách chọn biến của bạn có sự tương đồng cao trong thực tế.
  • Dữ liệu của một trong số các biến trong tập bị thiếu hay còn gọi là giá trị missing value.
  • Biến giả sai do chọn biến giả chung hoặc 1 số các danh mục biến đã có trong mô hình.
  • Chọn các biến độc lập mối quan có quan hệ nhân quả hay có tương quan cao.
  • Chọn nhầm biến là sự kết hợp giữa 2 biến khác cùng nằm trong mô hình.

3. Cách để phát hiện hiện tượng Đa cộng tuyến là gì?

Có hai cách phát hiện ra hiện tượng đa cộng tuyến trong phần mềm hồi quy.

Ở đây Mosl.vn sử dụng phần mềm Stata để mô tả cho 2 cách phát hiện này.

Tham khảo thêm cách chạy phần mềm Stata: Phần mềm Stata

Tải về bộ dữ liệu của mosl.vn để thực hành thử lun nha các bạn.

Cách 1: Phát hiện từ Ma trận hệ số tương quan (Correlation Matrix)

Hiện tượng đa cộng tuyến hoàn hảo là gì năm 2024
Mô hình ma trận hệ số tương quan

Tham khảo bài viết Hệ số tương quan nếu không biết cách chạy trong Stata nhé!

Mô hình ma trận hệ số tương quan được sử dụng để xác định mối quan hệ giữa biến độc lập với các biến phụ thuộc và giữa các biến phụ thuộc với nhau.

  • Trong hình có thể thấy hai biến SIZE và LIQ có giá trị p-value dưới hệ số tương quan là 0.0000 điều này cho thấy giữa hai biến này có mối quan hệ tuyến tính với nhau nên khả năng cao hai biến này sẽ bị đa cộng tuyến.
  • Tương tự, biến INF và biến GROWTH có giá trị p-value = 0.0002 cho thấy giữa hai biến này có mối quan hệ tuyến tính nên khả năng cũng sẽ bị đa cộng tuyến trong hai biến.

Cách này nhìn chung sẽ cho các bạn 1 cái nhìn tổng quan về mối tương quan giữa các biến và cho bạn dự đoán trước được biến nào sẽ bị đa cộng tuyến trong mô hình.

Cách 2: Từ Kiểm định đa cộng tuyến bằng hệ số VIF (Variance Inflation Factor)

Cách này bạn sẽ sử dụng hệ số phóng đại phương sai VIF (Variance inflation factor) để xác định rõ ràng được mối quan hệ giữa các biến độc lập và sức mạnh của mối quan hệ này.

Tiêu chuẩn so sánh hệ số VIF như sau:

Theo Mansfield & Helms (1982); Jim Frost (2020) khi VIF bằng 1 thì biến độc lập thứ i không tương quan với các biến còn lại, nghĩa là không tồn tại đa cộng tuyến.

Trong các điều khoản chung,

  • VIF =1 thì các biến không tương quan tức không có hiện tượng đa cộng tuyến
  • VIF từ 1 -> 5 thì các biến có tương quan vừa phải tức có tồn tại hiện tượng đa cộng tuyến nhưng không quá nghiêm trọng.
  • VIF > 5 thì các biến có tương quan cao tức tồn tại đa cộng tuyến nghiêm trọng.

Ví dụ theo hình bên dưới:

Hiện tượng đa cộng tuyến hoàn hảo là gì năm 2024
Kiểm định đa cộng tuyến VIF

Bình luận kết quả:

  • Từ hình trên có thể thấy biến DA có hệ số VIF là 2.37 và bộ dữ liệu mà mosl.vn sử dụng thuộc chuyên ngành tài chính nên theo đó hệ số so sánh sẽ là 2. Vậy kết luận biến DA bị đa cộng tuyến.
  • Tiếp theo, tại buối bảng là chỉ số Mean VIF (Giá trị trung bình VIF) = 1.43 < 2 nên kết luận mô hình không xảy ra hiện tượng đa cộng tuyến nghiêm trọng. (Mặc dù biến DA bị đa cộng tuyến nhưng khi xem xét tổng quan thì có thể lượt bỏ đi lỗi nhỏ tại biến này)

Xem thêm: Cách đọc kết quả hồi quy Stata nhé!

Cách 3: Dựa vào 1 số cách phát hiện đa cộng tuyến mở rộng

Các chỉ báo cho thấy ta phát hiện đa cộng tuyến có thể xuất hiện trong một mô hình bao gồm:

  1. Những thay đổi lớn trong hệ số hồi quy ước tính khi một biến dự báo được thêm vào hoặc xóa
  2. Hệ số hồi quy không đáng kể cho các biến bị ảnh hưởng trong hồi quy bội, nhưng bác bỏ giả thuyết chung rằng các hệ số đó đều bằng 0 (sử dụng F -test )
  3. Nếu một hồi quy đa biến tìm thấy một hệ số không đáng kể của một trình giải thích cụ thể, nhưng một hồi quy tuyến tính đơn giản của biến được giải thích trên biến giải thích này cho thấy hệ số của nó khác 0 đáng kể, tình huống này chỉ ra tính đa cộng tuyến trong hồi quy đa biến.
  4. Kiểm định Farrar – Glauber trong đa cộng tuyến là gì? Tự tìm hiểu nha
  5. Kiểm tra số điều kiện trong ma trận
  6. Thúc đẩy dữ liệu: Đa cộng tuyến có thể được phát hiện bằng cách thêm nhiễu ngẫu nhiên vào dữ liệu và chạy lại hồi quy nhiều lần và xem các hệ số thay đổi như thế nào

4. Hậu quả của đa cộng tuyến

Các hậu quả của đa cộng tuyến là gì, cùng đọc bên dưới:

  • Sai số chuẩn của các hệ số sẽ lớn. Khoảng tin cậy lớn và thống kê t ít ý nghĩa. Các ước lượng không thật chính xác. Do đó chúng ta dễ đi đến không có cơ sở bác bỏ giả thiết “không” và điều này có thể không đúng.
  • Đa cộng tuyến có thể dẫn đến kết quả sai lệch hoặc sai lệch khi nhà nghiên cứu hoặc nhà phân tích cố gắng xác định mức độ sử dụng hiệu quả nhất của từng biến độc lập để dự đoán hoặc hiểu biến phụ thuộc trong mô hình thống kê.
  • Đa cộng tuyến có thể dẫn đến khoảng tin cậy rộng hơn tạo ra xác suất kém tin cậy hơn về ảnh hưởng của các biến độc lập trong một mô hình.

Dưới đây là hình dạng của 2 biến khi xảy ra hiện tượng đa cộng tuyến là gì:

Hiện tượng đa cộng tuyến hoàn hảo là gì năm 2024
Đa cộng tuyến là gì?

Bài học rút ra từ hậu quả đa cộng tuyến

  • Đa cộng tuyến là gì, là một khái niệm thống kê trong đó một số biến độc lập trong một mô hình có tương quan với nhau.
  • Hai biến được coi là hoàn toàn thẳng hàng (đa cộng tuyến) nếu hệ số tương quan của chúng là +/- 1,0.
  • Đa cộng tuyến giữa các biến độc lập sẽ dẫn đến các suy luận thống kê kém tin cậy hơn.
  • Tốt hơn là sử dụng các biến độc lập không tương quan hoặc lặp lại khi xây dựng nhiều mô hình hồi quy sử dụng hai hoặc nhiều biến.
  • Sự tồn tại của đa cộng tuyến là gì trong một tập dữ liệu có thể dẫn đến kết quả kém tin cậy hơn do sai số tiêu chuẩn lớn hơn.

Lưu ý: Tính cộng tuyến hoàn hảo tồn tại khi có sự tương ứng chính xác 1: 1 giữa hai biến độc lập trong một mô hình. Đây có thể là mối tương quan của +1.0 hoặc -1.0.

5. Khắc phục hậu quả của Đa cộng tuyến

Khi mô hình của bạn xảy ra hiện tượng đa cộng tuyến hay trong quá trình làm bài tập đa cộng tuyến trong kinh tế lượng, hãy nhớ cân nhắc sử dụng các giải pháp khắc phục đa cộng tuyến như sau nhé:

  • Cân nhắc loại bỏ các biến mà có chỉ số VIF thể hiện rằng biến đã bị đa cộng tuyến.
  • Hãy chắc chắn rằng bạn không rơi vào bẫy biến giả ; bao gồm một biến giả cho mọi danh mục (ví dụ: mùa hè, mùa thu, mùa đông và mùa xuân) và bao gồm một số hạng không đổi trong hồi quy cùng nhau đảm bảo đa cộng tuyến hoàn hảo.
  • Gia tăng cỡ mẫu thu thập thêm cho nghiên cứu khắc phục đa cộng tuyến là gì?

Ví dụ như gia tăng số lượng phiếu khảo sát hay gia tăng số lượng năm, số cá thể thu thập.

  • Thay đổi, tái cấu trúc dạng mô hình có thể là từ mô hình tuyến tính sang mô hình phi tuyến, hoặc chuyển sang các mô hình đặt biệt khác….
  • Cũng có thể loại bỏ đa cộng tuyến bằng cách kết hợp hai hoặc nhiều biến thẳng hàng thành một biến duy nhất. Sau đó, phân tích thống kê có thể được tiến hành để nghiên cứu mối quan hệ giữa biến phụ thuộc xác định và chỉ một biến độc lập duy nhất.
  • Giải pháp cuối cùng hết sức quan trọng là trước khi thực hiện một mô hình nghiên cứu bạn cần phải tham khảo từ một số paper nghiên cứu trước đó rồi hãy kết luận xem các biến nào nên hoặc không nên đưa vào mô hình; test trước bộ dữ liệu sơ cấp trên phần mềm để giúp đưa ra nhận định và hướng giải quyết sớm cho mô hình.
  • Cuối của cuối cùng là giữ nguyên mô hình, bất chấp đa cộng tuyến. Sự hiện diện của đa cộng tuyến không ảnh hưởng đến hiệu quả của việc ngoại suy mô hình phù hợp với dữ liệu mới với điều kiện là các biến dự báo tuân theo cùng một mẫu đa cộng tuyến trong dữ liệu mới như trong dữ liệu dựa trên mô hình hồi quy.

Gom lại hết các cách trên để cân nhắc khắc phục đa cộng tuyến cho mô hình bạn nhé!

6. Các ví dụ về đa cộng tuyến trong thực tế

Trong Đầu tư

Đối với đầu tư, đa cộng tuyến là yếu tố thường được xem xét khi thực hiện phân tích kỹ thuật để dự đoán biến động giá có thể xảy ra trong tương lai của một chứng khoán, chẳng hạn như cổ phiếu hoặc hàng hóa trong tương lai .

Các nhà phân tích thị trường muốn tránh sử dụng các chỉ báo kỹ thuật có tính chất chặt chẽ mà chúng dựa trên các đầu vào rất giống nhau hoặc có liên quan; chúng có xu hướng tiết lộ những dự đoán tương tự liên quan đến biến phụ thuộc của chuyển động giá.

Để giải quyết vấn đề, các nhà phân tích tránh sử dụng hai hoặc nhiều chỉ báo kỹ thuật cùng loại. Thay vào đó, họ phân tích chứng khoán bằng một loại chỉ báo, chẳng hạn như chỉ báo động lượng , sau đó thực hiện phân tích riêng biệt bằng cách sử dụng một loại chỉ báo khác, chẳng hạn như chỉ báo xu hướng.

Ví dụ: ngẫu nhiên, chỉ số sức mạnh tương đối (RSI) và Williams% R là tất cả các chỉ báo động lượng dựa trên các đầu vào tương tự và có khả năng tạo ra kết quả tương tự. Trong trường hợp này, tốt hơn là loại bỏ tất cả trừ một trong các chỉ báo hoặc tìm cách hợp nhất một số trong số chúng thành một chỉ báo, đồng thời thêm một chỉ báo xu hướng không có khả năng tương quan cao với chỉ báo động lượng.

Trong Sinh học

Đa cộng tuyến cũng được quan sát thấy trong nhiều bối cảnh khác. Một trong những bối cảnh như vậy là sinh học của con người.

Ví dụ, huyết áp của một cá nhân không tương đồng với tuổi tác, mà còn bao gồm cả cân nặng, căng thẳng và mạch.

Hiện tượng đa cộng tuyến hoàn hảo là gì năm 2024
Đa cộng tuyến là gì? – Đa cộng tuyến trong Sinh học

Vậy là đã tổng kết 2 cách ứng dụng đến các bạn về đa cộng tuyến trong chủ đề đa cộng tuyến là gì lần này của Mosl.

7. Video hướng dẫn chuyên sâu về đa cộng tuyến

Đa cộng tuyến là gì và cách kiểm định trong phần mềm STATA

8. Tổng kết

Đa cộng tuyến là gì là 1 trong các chủ đề và cũng là một trong các khuyết tật mà bạn sẽ gặp trong quá trình làm nghiên cứu.

Hãy tham khảo cách mosl.vn đã giải đáp để sớm khắc phục được và hiểu hiện tượng đa cộng tuyến là gì này nhé!