與傳統(tǒng)的4/8位單片機相比,ARM的性能和處理能力是遙遙領先的。但與之相應,ARM的系統(tǒng)設計復雜度和難度,較之傳統(tǒng)的設計方法也大大提升了,同時也大大拓展了針對ARM芯片特性進行優(yōu)化的空間,例如針對指令流水線的優(yōu)化、針對寄存器分配進行的優(yōu)化等。
    ARM在硬件上不支持除法指令">

      技術頻道

      基于ARM的除法運算優(yōu)化策略

      與傳統(tǒng)的4/8位單片機相比,ARM的性能和處理能力是遙遙領先的。但與之相應,ARM的系統(tǒng)設計復雜度和難度,較之傳統(tǒng)的設計方法也大大提升了,同時也大大拓展了針對ARM芯片特性進行優(yōu)化的空間,例如針對指令流水線的優(yōu)化、針對寄存器分配進行的優(yōu)化等。
      ARM在硬件上不支持除法指令,編譯器是通過調用C庫函數(shù)來實現(xiàn)除法運算的,有許多不同類型的除法程序來適應不同的除數(shù)和被除數(shù)。但直接利用C庫函數(shù)中的標準整數(shù)除法程序,根據(jù)執(zhí)行情況和輸入操作數(shù)的范圍,要花費20~100個周期,消耗較多的軟件運行時間。在實時嵌入式應用中,對時間參數(shù)較為敏感,故可以考慮如何優(yōu)化避免除法消耗過多的CPU運行時間。
      除法和模運算(/和%)執(zhí)行起來比較慢,所以應盡量避免使用。但是,除數(shù)是常數(shù)的除法運算和用同一個除數(shù)的重復除法,執(zhí)行效率會比較高。在ARM中,可以利用單條MUL指令實現(xiàn)乘法操作。本文將闡述如何用乘法運算代替除法運算,以及如何使除法的次數(shù)最少化。
      1 避免除法運算
      在非嵌入式領域,因為CPU運算速度快、存儲器容量大,除法操作通常都是不加考慮直接使用的。但在嵌入式領域,首先需要考慮的是這些除法操作是否是必須的。以對環(huán)形緩沖區(qū)操作為例,經(jīng)常要用到除法,其實完全可以避免這些除法運算。
      假定有一個buffer_size大小的環(huán)形緩沖區(qū),如圖1所示,0ffset指定目前所在的位置。通過increment字節(jié)來增加offset的值,一般是這樣寫的:
      0ffset=(Offset+increment)%buffer_size;
      效率更高的寫法是:
      offset+=increment;
      if(offset>=buffer_size){
      offset一=buffer_size;
      }
      第一種寫法要花費50個周期,而第二種因為沒有除法運算,只須花費3個周期。這里假定increment<buff_er_size,在實際應用中這點應該是保證的。
      如果不能避免除法運算,那么就應盡量使除數(shù)和被除數(shù)是無符號的整數(shù)。有符號的除法程序執(zhí)行起來更加慢,因為它們先要取得除數(shù)和被除數(shù)的絕對值,再調用無符號除法運算,最后再確定結果的符號。
      2 充分利用商和余數(shù)
      許多C語言庫中的除法函數(shù)返回商和余數(shù)。換句話說,每一個除法運算,余數(shù)是可以無償?shù)玫降模粗嗳弧@纾谄聊痪彌_區(qū)找到偏移量為offset的屏幕位置(x,y),可以這樣寫:
      typeclef struct{
      int x;
      int y;
      }point;
      point getxy_v1(unsigned int offset,unslgned int bytes_per_line){
      point p;
      p.y=offset/lt)ytes_per_line;
      p.x=offset - p.y* bytcs_per_line;
      return p;
      }


      這里,似乎對p.x使用減法和乘法,少了一次除法運算;但是,實際上使用模運算或者取余操作效率更高,對
      getxy_vl改進如下:
      point getxy_v2(unsigned int offset,unsigned int bytes_per_line){
      point P;
      P.x=offset%bytes_per_1ine;
      P.y=offset/bytes_per_line;
      return P;
      從下面編譯器的輸出結果可以看到,只有一次除法調用。實際上,這個程序要比前面的getxy_vl少4條指令(注意,并不是對所有的編譯器和C庫都有這樣的結果)。getxy_v2
      STMFD r13!,{r4,r14};保存r4,lr人堆棧
      MOV r4,rO ;賦值后r4保存的為點P基址
      MOV rO,r2 ;rO=bytes_per_line
      BL rt_udiv ;調用無符號除法例程
      (r0.;r1)=(rl/rO,rl%rO)
      STR r0,[r4,#4] ;P.y=offset/bytes_per_line
      STR rl,[r4,#o] ;P.x=offset%bytes_per_line
      LDMFD r13!,(r4,pc);恢復上下文,返回
      3 把除法轉換為乘法
      在程序中,同一個除數(shù)的除法經(jīng)常會出現(xiàn)很多次。在前面的例子中,bytes_per_line的值在整個程序中都是固定不變的。又如3到2笛卡爾坐標變換,其中就使用了同一個除數(shù)兩次:
      (x,Y,x)→(x/z,y/z)
      這種情況下,使用cache指令中的值1/z,并使用1/z的乘法來代替除法運算,效率會更高。另外,要盡可能使用int類型的運算,避免使用浮點運算。
      下面將更加偏重于從數(shù)學和理論的角度分析,把重復除法轉換成乘法運算。
      下面來區(qū)分精確數(shù)學意義上的除法和整型除法運算:
      ◇n/d,即整數(shù)n被分成整數(shù)d份,結果趨向于O(與C語言相同);
      ◇n%d,即n被d除之后的余數(shù),就是n--d(n/d);
      ◇n/d=n·d-1,即真正數(shù)學意義上的n被d除。
      當使用整型除法時,最容易估算d-1值的方法是計算232/d。然后,就可以估算n/d為:
      (n(232/d))/232 (1)
      在執(zhí)行n的乘法時,需要精確到64位。對于這種方法,會出現(xiàn)如下問題:
      ◇為了計算232/d,由于一個unsigned int類型的數(shù)據(jù)放不下232,編譯器要使用64位long long類型的數(shù),而且必須指定除法為(1 ull<<32)/d。這種64位的除法比32位的除法執(zhí)行起來要慢得多。
      ◇如果d碰巧是1,那么232/d就不再適合于un—signed int數(shù)據(jù)類型。
      上面的做法似乎很好,而且解決了這兩個問題。那么,再來看一下用(232一1)/d代替232/d。

      s=0xffffffff ul/d (2)


      以上n/d-2,q,n/d+1為整數(shù)值,所以可得q=n/d或q=(n/d)一1,即初步估計的結果q與正確值n/d有可能存在偏差1。可以發(fā)現(xiàn),通過計算余數(shù)r=n—q·d(O≤r<2d)是比較容易的。下面的代碼糾正了這個結果:
      r=n--q*d;/*初步估計結果余數(shù)r的范圍為O≤r<2d*/
      if(r>=d){/*若需要校正*/
      r-=d;/*校正r,使O≤r<d為正確余數(shù)范圍*/
      n++;/*相應商加1進行校正*/
      } /*得正確結果q=n/d和r=n%d*/
      下面給出一個實例,用上面的算法完成了N個元素的數(shù)組被d除。首先,計算上面所說的s值,然后用乘以5來代替每個被d除的除法。64位的乘是很容易實現(xiàn)的,因為ARM中有一條指令UMULL,可以進行2個32位數(shù)相乘,給出一個64位的結果。
      void scale(
      unsigned int*dest; /*目的數(shù)據(jù)*/
      unsigned int*src; /*源數(shù)據(jù)*/
      unsignedInt d; /*分母d*/
      urlslglaedInt N;) /*數(shù)據(jù)長度*/
      {
      unsigned int s=0xFFFFFFFFu/d;
      do{
      unsigned int n,q,r;
      n=*(src++);
      q=(urtslgrted int)(((unsined tong long)n*s)>>32);
      r=n*d;
      if(r>=d){ /*若需要對商進行校正*/
      q++;
      }
      *(dest++)=q;
      }while(一一N);
      }
      這里假定除數(shù)和被除數(shù)都是32位的無符號整數(shù)。當然,使用32位乘法進行16位的無符號數(shù)計算,或者使用1 28位乘法進行64位數(shù)計算,運算規(guī)則是一樣的。可以為特定的數(shù)據(jù)選擇最窄的運算寬度。如果數(shù)據(jù)是16位的,那么就設置s=(216一1)/d,然后用標準的整型乘法來求值q。
      4 結 論
      在嵌入式軟件編程中,為了節(jié)省CPU運行時間,應盡可能避免使用除法。對環(huán)形緩沖區(qū)的處理可以不用除法。如果不能避免除法運算,那么應盡可能使用除法程序同時產(chǎn)生商n/d和余數(shù)n%d的好處。對于重復對一除數(shù)d的除法.預先計算好s=(2k一1)/d,用乘以s的2k位乘法來代替除以d的k位無符號整數(shù)除法,可大大減少由于直接使用除法操作引入的指令周期數(shù)。

      文章版權歸西部工控xbgk所有,未經(jīng)許可不得轉載。

      主站蜘蛛池模板: 乱子伦一区二区三区| 日韩最新视频一区二区三| 综合久久久久久中文字幕亚洲国产国产综合一区首 | 亚洲一区中文字幕久久| 中文字幕精品一区二区日本| 在线观看中文字幕一区| 日本免费一区二区三区 | 精品一区二区三区水蜜桃| 国产亚洲综合一区柠檬导航| 精品无码综合一区二区三区| 中文乱码精品一区二区三区| 无码中文字幕乱码一区 | 亚洲一区AV无码少妇电影☆| 夜精品a一区二区三区| 无码精品人妻一区二区三区中| 国产麻豆精品一区二区三区v视界 国产美女精品一区二区三区 | 日韩一区二区免费视频| 国产成人av一区二区三区不卡| 国产成人精品一区二三区熟女| 狠狠综合久久av一区二区| 国产在线无码视频一区| 国产视频福利一区| 久久无码精品一区二区三区| 小泽玛丽无码视频一区| 国产色精品vr一区区三区| 精品无码中出一区二区| 日韩社区一区二区三区| 国产视频一区二区在线播放| 78成人精品电影在线播放日韩精品电影一区亚洲 | 国精产品一区二区三区糖心| 高清国产AV一区二区三区| 亚洲一区二区三区久久久久| 日本无码一区二区三区白峰美| 国产伦精品一区二区三区免.费| 国产精品第一区第27页| 免费一区二区无码东京热| 日韩成人无码一区二区三区| 99久久精品费精品国产一区二区| 成人免费观看一区二区| 国产福利电影一区二区三区,亚洲国模精品一区 | 亚洲熟妇成人精品一区|