it-swarm-korea.com

무엇이 원인입니까? pcieport 0000 : 00 : 03.0 : PCIe 버스 오류 : AER / 잘못된 TLP

아래와 같은 오류 메시지가 나타납니다.

Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple 
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, 
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: 
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52 
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP

지금까지 수정 되었더라도 성능이 저하 될 수 있습니다. 분명히이 문제를 해결해야합니다. 그러나 나는 인터넷에서 그것에 대해 많이 찾을 수 없습니다. (아마도 잘못된 곳을 찾고 있습니다.) 아래에 게시 할 링크가 몇 개 밖에 없습니다.

누구든지 이러한 오류에 대해 더 알고 있습니까?

마더 보드, Samsung 950 Pro 또는 GPU (또는 이들의 조합)입니까?

하드웨어는 다음과 같습니다. M2의 Asus X99 Deluxe II Samsung 950 Pro NVMe. mb의 슬롯 (PCIe 포트 3을 공유 함). PCIe 포트 3에는 다른 것이 연결되어 있지 않습니다. PCIe 슬롯 1 코어 i7 6850K CPU의 GeForce GTX 1070

내가 찾은 몇 가지 링크에는 동일한 하드웨어 (X99 Deluxe II mb & Samsung950 Pro)가 언급되어 있습니다. 아치 리눅스를 사용하고 있습니다.

Journalctl 또는 지금까지 검색해 본 다른 곳에서 문자열 "8086 : 6f08"을 찾을 수 없습니다.

nvme ssd (Bad TLP)의 이상한 오류 메시지 : linuxquestions https://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/

PCIe : TLP 재전송으로 카드가 조용히 어려움을 겪고 있습니까? http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/

GTX 1080에서 잘못된 TLP PCIe 버스 오류 발생-GeForce 포럼 https://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/

드라이버-dmesg 로그의 PCIe 오류-Ubuntu에 문의 https://askubuntu.com/questions/643952/pcie-error-in-dmesg-log

780Ti X99 하드 락-PCIE 오류-NVIDIA 개발자 포럼 https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/

23
MountainX

어떻게되는지 완전히 설명 할 수는 없지만 최소한 몇 가지 세부 정보를 제공 할 수 있습니다.

예를 들어 here 에서 설명한 것처럼 CPU는 트랜잭션 레이어 패킷 (TLP)을 통해 PCIe 버스 컨트롤러와 통신합니다. 하드웨어는 결함이있는 경우이를 감지하고 Linux 커널은이를 메시지로보고합니다.

커널 옵션 pci=nommconf는 커널 2.6 이후 Linux에서 사용할 수있는 메모리 매핑 된 PCI 구성 공간을 비활성화합니다. 대략 모든 PCI 장치에는이 장치를 설명하는 영역이 있습니다 (lspci -vv) 및이 영역에 액세스하는 원래 방법에는 I/O 포트를 사용하는 것이 포함되며 PCIe를 사용하면이 공간을 메모리에 매핑하여보다 간단하게 액세스 할 수 있습니다.

이는이 특정 경우 PCIe 컨트롤러가이 방법을 사용하여 특정 장치의 구성 공간에 액세스 할 때 무언가 잘못되었음을 의미합니다. 장치, 마더 보드의 PCIe 루트 컨트롤러,이 두 가지 또는 그 밖의 특정 상호 작용에서 하드웨어 버그 일 수 있습니다.

사용하여 pci=nommconf, 모든 장치의 구성 공간은 원래 방식으로 액세스되며 액세스 방법을 변경하면이 문제를 해결할 수 있습니다. 따라서 원하는 경우 해결하고 억제합니다.

28
dirkt

커널 명령 행 옵션 pci=nommconf 문제가 해결되었습니다. 따라서 문제가 마더 보드 관련이라고 가정합니다. all X99 마더 보드가 장착 된 컴퓨터에서 발생합니다. Z170 시스템 또는 내가 소유 한 다른 하드웨어에서는 발생하지 않습니다.

3
MountainX

이 단계를 시도하십시오 :

  1. cp /etc/default/grub ~/Desktop
  2. 그룹을 편집하십시오. pci=noaer 끝에 GRUB_CMDLINE_LINUX_DEFAULT를 추가하십시오. 라인은 다음과 같습니다 :

    GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pci=noaer"
    
  3. Sudo cp ~/Desktop/grub /etc/default/

  4. Sudo update-grub
  5. 지금 재시작 해
3
Ehtesham

동일한 오류가 발생합니다 (장치 8086 : 6f08과 관련된 잘못된 TLP). X99 Deluxe II, Samsung 960 pro, Nvidia 1080 ti가 있습니다. 이러한 문제는 Samsung Pro와 같은 X99 칩셋 및 M.2 장치와 관련이있는 것 같습니다.

X99 Deluxe II 마더 보드는 PCIE16_3 슬롯과 M.2/U.2 사이의 대역폭을 공유합니다. @Nic의 의견에 따라 BIOS에서 Onboard Devices Configuration | 자동에서 U.2_2까지의 U.2_2 대역폭. 이것은 나를 위해 문제를 해결했습니다.

2
user1759557

내 x99-E에서 Bios의 PCIE16_3 슬롯 구성을 M.2 장치 지원에 대한 기본값 인 자동 대신 x8 모드로 정적으로 설정하도록 변경했습니다. PCIe 1x ~ 16x 확장 보드를 통해 연결된 1070GTX 카드 모두에서 TLP 오류없이 정상적으로 작동합니다.

먼저 포트 16_3을 사용하지 않고 테스트를 위해 해당 슬롯으로 옮겼지만 여전히 바이오스가 변경되기 전에 문제가있었습니다. 또한 광부 구성에서 모든 카드의 대기 설정을 30으로 변경했습니다.

변경하기 전에 커널 로그가 결함으로 스팸되었습니다. 또한 변경 전후 시스템의 전원을 껐다 켜려고했습니다. 꽤 영속적 인 것 같습니다.

2
Nic

"AER"에 대한 마더 보드 설명서를 검색하십시오. 특정 비 호환성을 수정하거나 AER을 모두 비활성화하여 문제의 원인을 제거 할 수 있습니다. 모든 오류 스팸이 corrected 오류와 관련된 경우에만 사용하십시오. 그렇지 않으면 실제 문제를 해결할 수 있습니다.

2
N3V3N