// Copyright (C) 2013-2015 Kasper Kristensen // License: GPL-2 /* ================================================ Routines depending on the openmp runtime library ================================================ */ #ifdef _OPENMP #ifdef WITH_LIBTMB bool in_parallel(); size_t thread_num(); void start_parallel(); #else bool in_parallel(){ return static_cast(omp_in_parallel()); } size_t thread_num(){ return static_cast(omp_get_thread_num()); } void start_parallel(){ #ifdef CPPAD_FRAMEWORK CppAD::thread_alloc::free_all(); #endif // CPPAD_FRAMEWORK int nthreads=config.nthreads; if(config.trace.parallel) Rcout << "Using " << nthreads << " threads\n"; #ifdef CPPAD_FRAMEWORK CppAD::thread_alloc::parallel_setup(nthreads,in_parallel,thread_num); CppAD::parallel_ad > > >(); CppAD::parallel_ad > >(); CppAD::parallel_ad >(); CppAD::parallel_ad(); #endif // CPPAD_FRAMEWORK } #endif #endif /* ================================================ Templates to do parallel computations ================================================ */ template struct sphess_t{ sphess_t(ADFunType* pf_,vector i_,vector j_){pf=pf_;i=i_;j=j_;} ADFunType* pf; vector i; vector j; }; #ifdef CPPAD_FRAMEWORK #define ADFUN ADFun #endif // CPPAD_FRAMEWORK #ifdef TMBAD_FRAMEWORK #define ADFUN TMBad::ADFun #endif // TMBAD_FRAMEWORK /** \brief sphess_t > sphess */ typedef sphess_t sphess; /* Suppose we have a mapping F:R^n->R^m which may be written as F=F1+...+Fk. Suppose we have tapes Fi:R^n->R^mi representing Fi with identical domain but with *reduced range dimension* (because some range components of Fi does not depend on any of the domain variables). Based on these tape chunks construct an object behaving just like the corresponding full taped version of F. */ template struct parallelADFun : ADFUN { /* Inheritance just so that compiler wont complain about missing members */ typedef ADFUN Base; /* Following five members must be defined by constructor. Outer vectors are indexed by the chunk number. E.g. for tape number i vecind[i] is a vector of numbers in the interval [0,1,...,range-1] telling how to embed this tapes range in the full range. */ int ntapes; vector vecpf; vector > vecind; size_t domain; size_t range; /* Following members are optional */ vector H_; /* row and column indices */ vector veci; vector vecj; /* Constructor: In the case of a vector of ADFun pointers we assume that they all have equal domain and range dimensions. */ void CTOR(vector vecpf_) { size_t n=vecpf_.size(); ntapes=n; vecpf.resize(n); for(size_t i=0;iDomain(); range=vecpf[0]->Range(); vecind.resize(n); for(size_t i=0;i vecpf_) { CTOR(vecpf_); } parallelADFun(const std::vector &vecf) { vector vecpf(vecf.size()); #ifdef _OPENMP #pragma omp parallel for num_threads(config.nthreads) #endif for (int i=0; i H){ H_=H; domain=H[0]->pf->Domain(); int n=H.size(); ntapes=n; vecpf.resize(n); vecind.resize(n); for(int i=0;ipf; size_t kmax=0; for(int i=0;i(H[i]->i))+(vector(H[i]->j))*domain; vecind[i]=((H[i]->i).cast())+((H[i]->j).cast())*domain; kmax+=vecind[i].size(); } veci.resize(kmax);vecj.resize(kmax); vector pos(n); /* keep track of positions in individual index vectors */ for(int i=0;i value(n); /* value corresponding to pos */ int k=0; /* Incremented for each unique value */ size_t m; /* Hold current minimum value */ size_t inf=-1; /* size_t is unsigned - so -1 should give the largest possible size_t... */ int rowk=-1,colk=-1; /* -Wall */ while(true){ for(int i=0;ii)[pos(i)]; colk=(H[i]->j)[pos(i)]; pos(i)++; } } veci[k]=rowk; vecj[k]=colk; k++; } range=k; //veci.resize(k);vecj.resize(k); veci.conservativeResize(k);vecj.conservativeResize(k); }; /* Destructor */ ~parallelADFun(){ if(config.trace.parallel) Rcout << "Free parallelADFun object.\n"; for(int i=0;i > convert(){ sphess_t > ans(this,veci,vecj); return ans; } /* Subset of vector x to indices of tape number "tapeid" */ template VectorBase subset(const VectorBase& x, size_t tapeid, int p=1){ VectorBase y; y.resize(vecind(tapeid).size()*p); for(int i=0;i<(int)y.size()/p;i++) for(int j=0;j void addinsert(VectorBase& x, const VectorBase& y, size_t tapeid, int p=1){ for(int i=0;i<(int)y.size()/p;i++) for(int j=0;j output = vector of length m (m=range dim) */ template VectorBase Forward(size_t p, const VectorBase& x, std::ostream& s = Rcout){ vector ans(ntapes); #ifdef _OPENMP #pragma omp parallel for num_threads(config.nthreads) #endif for(int i=0;iForward(p,x); VectorBase out(range); for(size_t i=0;i VectorBase Reverse(size_t p, const VectorBase &v){ vector ans(ntapes); #ifdef _OPENMP #pragma omp parallel for num_threads(config.nthreads) #endif for(int i=0;iReverse(p,subset(v,i)); VectorBase out(p*domain); for(size_t i=0;i VectorBase Jacobian(const VectorBase &x){ vector ans(ntapes); #ifdef _OPENMP #pragma omp parallel for num_threads(config.nthreads) #endif for(int i=0;iJacobian(x); VectorBase out( domain * range ); // domain fastest running out.setZero(); for(int i=0;i VectorBase Hessian(const VectorBase &x, size_t rangecomponent){ vector ans(ntapes); #ifdef _OPENMP #pragma omp parallel for num_threads(config.nthreads) #endif for(int i=0;iHessian(x,rangecomponent); VectorBase out( domain * domain ); out.setZero(); for(int i=0;ioptimize(); if(config.trace.optimize)Rcout << "Done\n"; } #endif // CPPAD_FRAMEWORK #ifdef TMBAD_FRAMEWORK void unset_tail() { for(int i=0; i unset_tail(); } void set_tail(const std::vector &r) { #ifdef _OPENMP #pragma omp parallel for num_threads(config.nthreads) #endif for(int i=0; i set_tail(r); } void force_update() { #ifdef _OPENMP #pragma omp parallel for num_threads(config.nthreads) #endif for(int i=0; i force_update(); } vector operator()(const std::vector &x) { vector > ans(ntapes); #ifdef _OPENMP #pragma omp parallel for num_threads(config.nthreads) #endif for(int i=0; i(vecpf(i)->operator()(x)); vector out(range); out.setZero(); for(int i=0; i Jacobian(const std::vector &x) { vector > ans(ntapes); #ifdef _OPENMP #pragma omp parallel for num_threads(config.nthreads) #endif for(int i=0; i(vecpf(i)->Jacobian(x)); vector out( domain * range ); // domain fastest running out.setZero(); for(int i=0; i Jacobian(const std::vector &x, const std::vector &keep_x, const std::vector &keep_y ) { vector > ans(ntapes); #ifdef _OPENMP #pragma omp parallel for num_threads(config.nthreads) #endif for(int i=0; i(vecpf(i)->Jacobian(x, keep_x, subset(keep_y, i))); // Calculate indices into row space of resulting jacobian (subset) vector > vecind2(vecind.size()); std::vector remap = TMBad::cumsum0 (keep_y); for(int i=0; i sub = subset(keep_y, i); // Bool mask into vecind(i) std::vector vecind_i(vecind(i)); std::vector vecind_i_sub = TMBad::subset(vecind_i, sub); // remaining vecind(i) std::vector vecind_i_sub_remap = TMBad::subset(remap, vecind_i_sub); // Remap vecind2(i) = vector (vecind_i_sub_remap); } // Fill into result matrix int dim_x = std::count(keep_x.begin(), keep_x.end(), true); int dim_y = std::count(keep_y.begin(), keep_y.end(), true); vector out( dim_x * dim_y ); out.setZero(); std::swap(vecind, vecind2); for (int i=0; i Jacobian(const std::vector &x, const vector &w) { vector > ans(ntapes); #ifdef _OPENMP #pragma omp parallel for num_threads(config.nthreads) #endif for(int i=0; i(vecpf(i)->Jacobian(x, subset(w, i))); vector out(domain); out.setZero(); for(int i=0; i Vector forward(const Vector &x) { vector ans(ntapes); #ifdef _OPENMP #pragma omp parallel for num_threads(config.nthreads) #endif for(int i=0; iforward(x); Vector out(1); out.setZero(); for(int i=0; i Vector reverse(const Vector &w) { vector ans(ntapes); #ifdef _OPENMP #pragma omp parallel for num_threads(config.nthreads) #endif for(int i=0; ireverse(w); Vector out(domain); out.setZero(); for(int i=0; i