Seit geraumer Zeit programmiere ich mit einem Kollegen der itemis AG an einer Mikrocontroller-gesteuerten Modellbahnanlage. Im Großen und Ganzen ging die Entwicklung sehr zügig voran. Es kam aber zu einigen Fallstricken, über die ich hier gerne mal berichten möchte. Zuerst bleibt zu erwähnen, dass die Entwicklungsumgebung für die AVR-Mikrocontroller recht gut sind. Die Gesamtanlage ist ein relativ komplexes System. In der Kette wurden Stellwerkssoftware in Java, ein Übertragungskanal über RS232-Schnittstelle an ein CAN-Gateway mit ATmega32 und MCP2515 gekoppelt. Daran sind mehrere CAN-Knoten derselben Hardware miteinander gekoppelt. Die Firmware ist C programmiert. Die Entwicklung aller Komponenten kann sowohl unter Windows, als auch unter Linux erfolgen. Linux hat den Vorteil, dass auch mal Remote entwickelt werden kann.
Nachdem die erste Schaltung gesteckt war, wurde schnell deutlich, dass die Kommunikation zum CAN-Controller nicht mehr stattfand. Offensichtlich ist die Kommunikation über das SPI zusammengebrochen. Ein kurzes Kontrollprogramm zeigt mithilfe eines Oszilloskops, dass die Verbindung tatsächlich zusammengebrochen ist. Ein genauer Blick ins Datenblatt des ATmega32 zeigte schnell, woran es lag: Es gibt einen Pin names Slave Select, der das SPI-Interface von außen in den Slave-Modus versetzen kann. In diesem Fall war er als offener Eingang – also ohne Anschluss – konfiguriert und beschaltet. Die Lösung bestand darin, das /CS-Signal für den MCP2515 als Ausgang daran anzuschließen.
Ein weiterer Punkt war, dass ein CAN-Knoten nach kurzer Betriebszeit nur durch einen Kaltstart wiederzubeleben war. Die Ursache war schnell gefunden: Als Takt wurde der Taktausgang des MCP2515 verwendet. Der Taktausgang ist nach einem Reset per Default eingeschaltet, kann aber per Software ausgeschaltet werden. Wenn der Takt erst einmal aus ist, besteht per Software keine Möglichkeit mehr, den Takt zu reaktivieren. Ein eigener Quartz für den ATmega32 bestätigte die Vermutung. Warum der Takt ungewollt ausgeschaltet wurde, wurde nicht geklärt. Vermutlich wurde durch eine Race Condition das entsprechende Register mit falschen Daten beschrieben. Ein ausführlicher Code Audit hat das Problem behoben, denn der CAN-Knoten funktioniert jetzt einwandfrei.
Zum guten Schluss haben wir noch ein Problem gehabt, dessen Lösung sich lange hingezogen hat: Es gingen CAN-Frames verloren. Das kann sehr unangenehm sein, denn es wird ein Messaging System vorausgesetzt, dass sich dadurch auszeichnen soll, dass nicht dauernd Informationen und Zustände abgefragt werden sollen (Polling). Es darf also keine Information verloren gehen. Interessanterweise ist dieser Effekt gehäuft beim Konfigurieren der CAN-Knoten aufgetaucht. In diesem Fall ist sporadisch ein Reset aufgetaucht. Ein Reset war nach der Konfiguration gewollt. Dieser hier tauchte aber während der Konfiguration auf. Die erste Vermutung, dass ein fehlkonfigurierter Interrupt eine nicht konfigurierte Interrupt Service Routine anspringt, hat sich nicht erhärtet. Woher kommt aber der Reset? Ein dummer Zufall brachte des Rätsels Lösung, als im Millisekunden genauen Logfile eine Pause von etwa 700 Millisekunden nach dem Ende der Konfigurierung auftauchte. Das ist gefährlich nahe am Timeout des Watchdogs, der mit einer Sekunde aktiv war. Laut Datenblatt dauert das Speichern eines Bytes im EEPROM 8.5 Millisekunden. Das Speichern einer Flash Page (128 Bytes) hingegen nur etwa fünf Millisekunden. In dieser Zeit kann kein Watch Dog Reset durchgeführt werden. Die Lösung bestand also darin, während dieser Zeit den Watch Dog zu deaktivieren. Eines hat die lange Suche aber noch gebracht: Der Code ist jetzt wesentlich effizienter und aufgeräumter.
Zusammenfassend kann man feststellen, wie eng gerade in Embedded Systems alle Komponenten miteinander abgestimmt sein müssen. Zwei scheinbar unabhängige Komponenten (Watch Dog und EEPROM) haben letztlich doch miteinander zu tun. Es lohnt sich immer, bei Problemen zuerst in Ruhe (!) einen Blick in die Datenblätter zu werfen. Wie bei der SPI-Schnittstelle kommt man dann schnell auf die Lösung. Wenn man mit Interrupts arbeitet, muss man ein Gespühr für Nebenläufigkeit (Threads) haben. So kann man das Zeitverhalten einschätzen und Race Conditions vermeiden. Dead Locks treten hierbei mit geringerer Wahrscheinlichkeit auf, sind aber nicht unmöglich. Dieser kann auf den ATmega Controllern wenigstens mit dem Watch Dog aufgelöst werden. Alles in Allem braucht man einen klaren Kopf und die Geduld, auf die Lösung des Problems hinzuarbeiten.
Sorry, the comment form is closed at this time.