<div dir="ltr"><div>Awesome, thanks for finding this!<br><br></div>Tom<br></div><div class="gmail_extra"><br><div class="gmail_quote">On Fri, Jan 20, 2017 at 1:02 PM, Wm. Josiah Erikson <span dir="ltr"><<a href="mailto:wjerikson@hampshire.edu" target="_blank">wjerikson@hampshire.edu</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">



<div bgcolor="#FFFFFF" text="#000000">
<p>Yes, it was bad RAM. I found and removed the offending stick and will RMA it. For now, compute-1-10 "only" has 24GB of RAM.<span class="HOEnZb"><font color="#888888"><br>
</font></span></p><span class="HOEnZb"><font color="#888888">
<p>    -Josiah</p></font></span><span class="">
<p><br>
</p>
<br>
<div class="m_-6575540118402476107moz-cite-prefix">On 1/17/17 2:41 PM, Wm. Josiah Erikson wrote:<br>
</div>
</span><blockquote type="cite"><span class="">
<p>    Not sure what exactly is going on there, but I'm suspicious of bad memory. I'm NIMBYing it and will run a memory test on it when the existing jobs are finished or errored out :)</p>
<p>    Sending this to the list too so everyone knows why compute-1-10 is NIMBYed.<br>
</p>
<p>    -Josiah</p>
<p><br>
</p>
<br>
<div class="m_-6575540118402476107moz-cite-prefix">On 1/17/17 10:55 AM, Thomas Helmuth wrote:<br>
</div>
</span><div><div class="h5"><blockquote type="cite">
<div dir="ltr">
<div>
<div>
<div>
<div>Sure! It looks like most or all of them threw our old friend hs_err messages with a bunch of Java info. I've attached a bunch of them. I remember trying to get to the bottom of these years ago, I think with a different compute node, and we ended up just
 ignoring the error and taking the node off my tag.<br>
<br>
</div>
The errors printed to tractor are all over the place -- from just saying they aborted to null pointer exceptions to array index out of bounds exceptions. I think they're unrelated and were just caused by whatever threw the hs_err.
<br>
<br>
</div>
All of these errors occurred within 1-3 minutes of starting the run.<br>
<br>
</div>
Thanks,<br>
</div>
Tom<br>
</div>
<div class="gmail_extra"><br>
<div class="gmail_quote">On Tue, Jan 17, 2017 at 9:11 AM, Wm. Josiah Erikson <span dir="ltr">
<<a href="mailto:wjerikson@hampshire.edu" target="_blank">wjerikson@hampshire.edu</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
My quick and dirty look at the node doesn't see anything wrong with it -<br>
can you send me a link to or the text of the weird error?<br>
<br>
    -Josiah<br>
<div class="m_-6575540118402476107HOEnZb">
<div class="m_-6575540118402476107h5"><br>
<br>
<br>
On 1/13/17 3:51 PM, Thomas Helmuth wrote:<br>
> Hi Josiah,<br>
><br>
> I have some runs going on fly, and noticed that a bunch of them on<br>
> compute-1-10 crashed with various weird error messages. This was the<br>
> only node with weird crashes, so I'm wondering if something is going<br>
> bad in that node. Any ideas? Would you be able to either take that<br>
> node offline, or remove it from tag "tom" so my runs don't use it?<br>
><br>
> Thanks,<br>
> Tom<br>
<br>
</div>
</div>
<span class="m_-6575540118402476107HOEnZb"><font color="#888888">--<br>
Wm. Josiah Erikson<br>
Assistant Director of IT, Infrastructure Group<br>
System Administrator, School of CS<br>
Hampshire College<br>
Amherst, MA 01002<br>
<a href="tel:%28413%29%20559-6091" value="+14135596091" target="_blank">(413) 559-6091</a><br>
<br>
</font></span></blockquote>
</div>
<br>
</div>
</blockquote>
<br>
<pre class="m_-6575540118402476107moz-signature" cols="72">-- 
Wm. Josiah Erikson
Assistant Director of IT, Infrastructure Group
System Administrator, School of CS
Hampshire College
Amherst, MA 01002
<a href="tel:(413)%20559-6091" value="+14135596091" target="_blank">(413) 559-6091</a>
</pre>
</div></div></blockquote><div><div class="h5">
<br>
<pre class="m_-6575540118402476107moz-signature" cols="72">-- 
Wm. Josiah Erikson
Assistant Director of IT, Infrastructure Group
System Administrator, School of CS
Hampshire College
Amherst, MA 01002
<a href="tel:(413)%20559-6091" value="+14135596091" target="_blank">(413) 559-6091</a>
</pre>
</div></div></div>

</blockquote></div><br></div>