Autor Thema: Octane Aufrüstungsproblem  (Gelesen 3897 mal)

seeker

  • Gast
Octane Aufrüstungsproblem
« am: 31. März 2003, 16:45:51 »
Hallo,

habe hier ein seltsames Problem bei der Aufrüstung einer Octane eines Bekannten.
Ausgehend von einer Octene single 175MHz/SE wollte ich ein dual 195MHz Modul einbauen.

Erstmal lief alles 3 Tage wunderbar. Dann Fehler:

PANIC: CPU1: TLBMISS: KERNEL FAULT
...
...
EXEC code:8 ´READ TLB miss`
...
System ist dann hängengeblieben und bootete nicht mehr.
Diagnostic im Maintenance Mode lief aber noch durch und meldete keine Fehler !
Neue Platte und neu installiertes IRIX 6.5.16 bringt keine Änderung.
Mit single 175MHz CPU läuft das System wunderbar.

Das Board ist das neue (030-0887-05) aus der Octane2, 512MB RAM (alle Slots belegt). Netzteil eines der alten (mit schwarzem Griff). Grafik SE.

Was könnte das bedeuten ?

Danke.

mood-indigo.org - Das unabhängige Silicon Graphics User Forum

Octane Aufrüstungsproblem
« am: 31. März 2003, 16:45:51 »

msunix

  • Gast
Re: Octane Aufrüstungsproblem
« Antwort #1 am: 31. März 2003, 18:21:57 »
Hmmm... wenn das Ding drei Tage gelaufen ist dann sollte es kein grundsätzlicher Fehler sein.
Schau mal, ob das Modul richtig eingesetzt ist, keine Kontakte verkantet, alle Schrauben fest, etc.
Wenn das alles passt ist es IMO am wahrscheinlichsten, dass das CPU-Modul einen Hau hat. Möglicherweise einen wärmeabhängigen Fehler, der erst nach längerer Betriebszeit auftritt.
Dass 'ide -fe' nicht unbedingt jeden Fehler findet ist bekannt.

Hast Du eine Möglichkeit, die CPU mal in einer anderen Maschine zu testen? Idealerweise mehrere Stunden unter hoher Last.

Servus,
  Michael

seeker

  • Gast
Re: Octane Aufrüstungsproblem
« Antwort #2 am: 31. März 2003, 18:51:58 »
Die CPU kommt aus einer Maschine, die in den letzten 3 Jahren im Dauerbetrieb und teils unter voller Last gearbeitet hat. Nicht ein einziger Fehler in dieser Zeit. Das Modul ist also in Ordnung.
Verkantet ist auch unwahrscheinlich, da es mehrmals ein und ausgebaut wurde (um die Maschine mit dem single 175er Modul nochmal zu testen).

Gibt es irgendwelche grundsätzlichen Hardware-Unverträglichkeiten mit dual 195er Modulen in bestimmten Boards ? Von R12000 Modulen habe ich gehört, dass manche nicht in bestimmten Platinen laufen - aber 195er R10000 ?

Merkwürdig; jemand noch weitere Ideen ?


Holger251

  • Gast
Re: Octane Aufrüstungsproblem
« Antwort #3 am: 31. März 2003, 18:52:50 »
Mhhh...google-archives geben dazu nicht viel her. TLB MISS könnte so ziemlich jede Ursache haben.

Hast Du mal in /var/adm/crash geschaut ?

Holger

Christoph

  • Gast
Re: Octane Aufrüstungsproblem
« Antwort #4 am: 31. März 2003, 19:31:34 »
Da muss man gar nicht weit blicken.
Wenn man hier im Forum nach dem Begriff "TLB" sucht, erhält man den Fehler mehrmals und bei den betroffenen Maschinen war es nur ein sporadisches Verhalten und kein Defekt.

Ein TLBMISS ist in erster Linie nichts Ungewöhnliches.
Es ist eine Fehlermeldung des Kernels, die im Zusammenhang mit der Verwaltung des virtuellen Speicherbereichs des Prozessors zusammen hängt.

http://mood-indigo.org/cgi-bin/YaBB/YaBB.cgi?board=hwprobs&action=display&num=1024053230&start=7

Normalerweise ist die Neuinstallation einer höheren Irix-Version der beste Weg, diesen Fehler auszubügeln.

Die Version 6.5.16 ist aber diesbezüglich weit gereift und bekannte Fehler zum TLB nicht vorhanden.
Eine Neuinstallation hast Du ja bereits getestet.
Die Chancen stehen daher gut (und für Dich schlecht), das die zweite CPU auf dem Modul defekt sein könnte.

Zur Lösung bieten sich nun drei Wege an:
- das Dual-Modul in einer anderen Octane testen (Mainboard)
- das Dual-Modul bei Ebay verkaufen (ohne Garantie)
- eine einzelne R10k195-CPU auftreiben und das Dual-Modul reparieren.

Letzteres funktioniert nur, wenn tatsächlich die CPU und nicht ein Bauteil des Moduls beschädigt ist.
Ich gebe Dir dafür 65% Chance.  :)

msunix

  • Gast
Re: Octane Aufrüstungsproblem
« Antwort #5 am: 31. März 2003, 21:00:02 »
Hi!

Wahrscheinlicher als die CPU selbst wohl ist ein Cache-Baustein defekt, oder wie schon geschrieben ein Kontaktproblem. Wenn Du eine Möglichkeit hast solltest Du die CPU mal in einer anderen Maschine probieren. Evtl. wohnt ja ein anderes Forumsmitglied in Deiner Umgebung, der dir dabei helfen könnte?

Ach ja, es kann auch nicht schaden, mal alle RAM-Module der Maschine rauszunehmen und neu einzubauen. Kontaktprobleme beim RAM sind bei der Octane auch keine Seltenheit und können die tollsten Fehler verursachen.

Servus,
  Michael

Galahad

  • Gast
Re: Octane Aufrüstungsproblem
« Antwort #6 am: 01. April 2003, 03:20:37 »
Also TLB Miss hört sich unangenehm an.
Wenn der TLB nen Schaden hat, kannst du die CPUs wegwerfen.

Kann sein, daß der Maintenance Mode dann noch läuft, der macht wohl nicht viel in Richtung Task Switching, nehme ich an, aber ein echtes Multitasking OS wird sich dann weghängen.

seeker

  • Gast
Re: Octane Aufrüstungsproblem
« Antwort #7 am: 01. April 2003, 20:45:54 »
Danke für die Infos an Alle. Ich werde mal sehen wie ich damit weiterkomme....

Offline sgt_barnes

  • Mood Master
  • ****
  • Beiträge: 250
  • Der frühe Vogel fängt den Wurm, aber die zweite Maus kriegt den Käse!
    • Profil anzeigen
Re: Octane Aufrüstungsproblem
« Antwort #8 am: 01. April 2003, 20:58:46 »
Also wie gesagt: TLB misses sind total normal, praktisch jeder Prozess sammelt einen ganzen Haufen davon während seiner Lebenszeit an (gibt auch ein Feld in osview, wenn mich nicht alles täuscht, das einem die aufgetretenen TLB misses anzeigt).

Im Prinzip hilft der TLB ("Translation Look-aside Buffer") dem System bei der Umsetzung von virtuellen auf physikalische Adressen (wie ein Cache). Wenn die physikalische Adresse einer gewünschten Speicherseite nicht im TLB zu finden ist, gibt es einen TLB miss und das Betriebssystem muss halt in Gottes Namen in seiner eigenen page table nachgucken, ob und wo die Seite gerade gemapped ist.

Die ganze Sache stinkt aber zum Himmel wenn das für bestimmten Kernel-Speicherseiten auftritt, die NIEMALS ausgelagert werden dürfen (die oben erwähnte page table ist so ein Fall). Solche Fehler gibt es auch bei anderen OS's (bei WinNT heisst das Ding "Page Error in Non-Paged Area!"). Normalerweise sind das buggy Treiber, die Amok gelaufen sind, was auch bei sgi nicht ganz auszuschliessen ist, nur halt eher unwarscheinlich. ;D

In Deinem Fall ist es mit Sicherheit ein Hardware-Defekt, weil Du ja die Platte ausgetauscht hast und der Fehler immer noch auftritt. Weil die Kiste mit einer anderen CPU läuft, tippe ich darauf, das das Dual-Modul das zeitliche gesegnet hat.

Schade drum! Dualprozessoren sind was Feines...
Mein aufrichtiges Beileid!

Tilmann