internal ERROR RSPHER: during MD run (Fatal Error)

#1 Post by paulfons » Wed Jun 04, 2014 11:41 pm

I am running the latest version of VASP (vasp.5.3.3 18Dez12 (build May 13 2013 15:17:23) gamma-only) on a CentOS 6.5 system with 128 GB of memory and two twelve core Ivy Bridge CPUs. I am carrying out a MD run on a Ga2Te3 system. I am using the latest intel compiler (ifort (IFORT) 14.0.3 20140422) and Intel MPI (I_MPI_ROOT=/opt/intel/impi/ To get around the incompatibility problem of Vasp and the latest MPI standard 2.2 (due to VASP's use of overlapping memory buffers prohibited in the 2.2 standard), I have set the compatibility flag (-env I_MPI_COMPATIBILITY 4) to four and the code starts without error.

The code runs for almost 2000 steps with seemingly reasonable output and then suddenly crashes with the error:

nformation: wavefunction orthogonal band 349 0.8971
bond charge predicted
internal ERROR RSPHER:running out of buffer 22243 41
13 2 22776
nonlr.F:Out of buffer RSPHER
application called MPI_Abort(MPI_COMM_WORLD, 1) - process 17

Any suggestions as to what I can do to mitigate this error. It is a show stopper in that I need to run the MD calculation for hundreds of picoseconds. Would a quick fix involve increasing the size of the buffer referenced in the RSPHER error? Than you for any help.

My INCAR file is:
SYSTEM = Ga2Te3 !Name of the system
NSW = 50000 !Number of steps for IOM
IBRION = 0 !Ion motion algorithm: 0 - Molecular Dynamics
SMASS = -1 !Temperature control flag: -1 temperature ramp
POTIM = 3.00 !Time-step for ion-motion
TEBEG = 3000 !Initial temperature in K
TEEND = 900 !Final temperature in K
NBLOCK = 100 !Define ionic steps to calculate pcf and DOS. Scale temperature if SMASS=-1.
ISIF = 0 !0 - Calculate forces and relax ions
PREC = Low !determine ENCUT, NGX,Y,Z & ROPT
ENCUT = 175 !Cut-off energy for plane wave basis set in eV
ISYM = 0 !switch off symmetry for MD calculations
EDIFF = 1.0E-04 !SCF energy cutof
ISMEAR = 0 !determines how the partial occupancies are set for each orbital, default 1 (SIGMA 0.2)
SIGMA = 0.1 !For metals a sensible value is usually SIGMA= 0.2
IALGO = 48 !selects the algorithm for electronic minimization, 48 best for parallel
LREAL = T !projection operators in real or in reciprocal space? (small cells F, large cells T)
LPLANE = T !Parallelization, T is always faster for parallel vasp
NPAR = 1 !Parallelization, =1 for 1-16 cores, =2 for 32 cores, =4 for 64 cores
NSIM = 6 !Parallelization, =4 for 1-8 cores, =6 for 16 cores, =8 for 32-64 cores
NELMIN = 2 !minimum number of electronic SC steps, 2-4 for MD
MAXMIX = 50 !maximum number steps stored in Broyden mixer, optimal = 3x steps top converge 1st step
BMIX = 2.0 !cutoff wave vector for Kerker mixing scheme, default 1.0
LWAVE = F !write or not WAVECAR
LCHARG = F !write or not CHGCAR
APACO = 10.0 !distance for P.C. (rdf)

My POSCAR file is:

Te Ga
1.000000000000000 0.000000000000000 0.000000000000000
0.000000000000000 1.000000000000000 0.000000000000000
0.000000000000000 0.000000000000000 0.666666666666667
72 48
0.000000000000000 0.000000000000000 0.000000000000000
0.000000000000000 0.166666666666667 0.250000000000000
0.166666666666667 0.000000000000000 0.250000000000000
0.166666666666667 0.166666666666667 0.000000000000000
0.333333333333333 0.000000000000000 0.000000000000000
0.333333333333333 0.166666666666667 0.250000000000000
0.500000000000000 0.000000000000000 0.250000000000000
0.500000000000000 0.166666666666667 0.000000000000000
0.666666666666667 0.000000000000000 0.000000000000000
0.666666666666667 0.166666666666667 0.250000000000000
0.833333333333333 0.000000000000000 0.250000000000000
0.833333333333333 0.166666666666667 0.000000000000000
0.000000000000000 0.333333333333333 0.000000000000000
0.000000000000000 0.500000000000000 0.250000000000000
0.166666666666667 0.333333333333333 0.250000000000000
0.166666666666667 0.500000000000000 0.000000000000000
0.333333333333333 0.333333333333333 0.000000000000000
0.333333333333333 0.500000000000000 0.250000000000000
0.500000000000000 0.333333333333333 0.250000000000000
0.500000000000000 0.500000000000000 0.000000000000000
0.666666666666667 0.333333333333333 0.000000000000000
0.666666666666667 0.500000000000000 0.250000000000000
0.833333333333333 0.333333333333333 0.250000000000000
0.833333333333333 0.500000000000000 0.000000000000000
0.000000000000000 0.666666666666667 0.000000000000000
0.000000000000000 0.833333333333333 0.250000000000000
0.166666666666667 0.666666666666667 0.250000000000000
0.166666666666667 0.833333333333333 0.000000000000000
0.333333333333333 0.666666666666667 0.000000000000000
0.333333333333333 0.833333333333333 0.250000000000000
0.500000000000000 0.666666666666667 0.250000000000000
0.500000000000000 0.833333333333333 0.000000000000000
0.666666666666667 0.666666666666667 0.000000000000000
0.666666666666667 0.833333333333333 0.250000000000000
0.833333333333333 0.666666666666667 0.250000000000000
0.833333333333333 0.833333333333333 0.000000000000000
0.000000000000000 0.000000000000000 0.500000000000000
0.000000000000000 0.166666666666667 0.750000000000000
0.166666666666667 0.000000000000000 0.750000000000000
0.166666666666667 0.166666666666667 0.500000000000000
0.333333333333333 0.000000000000000 0.500000000000000
0.333333333333333 0.166666666666667 0.750000000000000
0.500000000000000 0.000000000000000 0.750000000000000
0.500000000000000 0.166666666666667 0.500000000000000
0.666666666666667 0.000000000000000 0.500000000000000
0.666666666666667 0.166666666666667 0.750000000000000
0.833333333333333 0.000000000000000 0.750000000000000
0.833333333333333 0.166666666666667 0.500000000000000
0.000000000000000 0.333333333333333 0.500000000000000
0.000000000000000 0.500000000000000 0.750000000000000
0.166666666666667 0.333333333333333 0.750000000000000
0.166666666666667 0.500000000000000 0.500000000000000
0.333333333333333 0.333333333333333 0.500000000000000
0.333333333333333 0.500000000000000 0.750000000000000
0.500000000000000 0.333333333333333 0.750000000000000
0.500000000000000 0.500000000000000 0.500000000000000
0.666666666666667 0.333333333333333 0.500000000000000
0.666666666666667 0.500000000000000 0.750000000000000
0.833333333333333 0.333333333333333 0.750000000000000
0.833333333333333 0.500000000000000 0.500000000000000
0.000000000000000 0.666666666666667 0.500000000000000
0.000000000000000 0.833333333333333 0.750000000000000
0.166666666666667 0.666666666666667 0.750000000000000
0.166666666666667 0.833333333333333 0.500000000000000
0.333333333333333 0.666666666666667 0.500000000000000
0.333333333333333 0.833333333333333 0.750000000000000
0.500000000000000 0.666666666666667 0.750000000000000
0.500000000000000 0.833333333333333 0.500000000000000
0.666666666666667 0.666666666666667 0.500000000000000
0.666666666666667 0.833333333333333 0.750000000000000
0.833333333333333 0.666666666666667 0.750000000000000
0.833333333333333 0.833333333333333 0.500000000000000
0.250000000000000 0.083330000000000 0.375000000000000
0.083330000000000 0.250000000000000 0.375000000000000
0.416670000000000 0.083330000000000 0.125000000000000
0.583330000000000 0.250000000000000 0.125000000000000
0.750000000000000 0.083330000000000 0.125000000000000
0.916670000000000 0.250000000000000 0.125000000000000
0.916670000000000 0.083330000000000 0.375000000000000
0.750000000000000 0.250000000000000 0.375000000000000
0.250000000000000 0.583330000000000 0.125000000000000
0.250000000000000 0.416670000000000 0.375000000000000
0.083330000000000 0.583330000000000 0.375000000000000
0.416670000000000 0.416670000000000 0.125000000000000
0.583330000000000 0.416670000000000 0.375000000000000
0.416670000000000 0.583330000000000 0.375000000000000
0.750000000000000 0.416670000000000 0.125000000000000
0.916670000000000 0.583330000000000 0.125000000000000
0.250000000000000 0.916670000000000 0.125000000000000
0.250000000000000 0.750000000000000 0.375000000000000
0.083330000000000 0.916670000000000 0.375000000000000
0.416670000000000 0.750000000000000 0.125000000000000
0.416670000000000 0.916670000000000 0.375000000000000
0.750000000000000 0.750000000000000 0.125000000000000
0.916670000000000 0.916670000000000 0.125000000000000
0.916670000000000 0.750000000000000 0.375000000000000
0.083330000000000 0.083330000000000 0.625000000000000
0.250000000000000 0.250000000000000 0.625000000000000
0.083330000000000 0.250000000000000 0.875000000000000
0.416670000000000 0.083330000000000 0.625000000000000
0.583330000000000 0.083330000000000 0.875000000000000
0.416670000000000 0.250000000000000 0.875000000000000
0.916670000000000 0.250000000000000 0.625000000000000
0.916670000000000 0.083330000000000 0.875000000000000
0.083330000000000 0.416670000000000 0.625000000000000
0.250000000000000 0.416670000000000 0.875000000000000
0.083330000000000 0.583330000000000 0.875000000000000
0.416670000000000 0.416670000000000 0.625000000000000
0.583330000000000 0.583330000000000 0.625000000000000
0.416670000000000 0.583330000000000 0.875000000000000
0.916670000000000 0.583330000000000 0.625000000000000
0.916670000000000 0.416670000000000 0.875000000000000
0.083330000000000 0.750000000000000 0.625000000000000
0.250000000000000 0.750000000000000 0.875000000000000
0.083330000000000 0.916670000000000 0.875000000000000
0.416670000000000 0.750000000000000 0.625000000000000
0.583330000000000 0.916670000000000 0.625000000000000
0.416670000000000 0.916670000000000 0.875000000000000
0.916670000000000 0.916670000000000 0.625000000000000
0.916670000000000 0.750000000000000 0.875000000000000

The Potcar contains the PBE_52 versions of the PAW potentials for each element.
Last edited by paulfons on Wed Jun 04, 2014 11:41 pm, edited 1 time in total.

#2 Post by paulfons » Fri Jun 06, 2014 7:54 am

Here is an update. After the MD run crashed due to the above mentioned buffer problem, I copied the CONTCAR to the POSCAR file and ran vasp again. VASP has no been running more than 24 hours and has calculated about 25,000 SCF loops for a ~100 atom cluster. The problem thus seems to be stochastic as I did not reboot the machine or change the INCAR file. I still would like to know the cause to prevent a crash of a long MD run.
