当前位置：首页 > 范文大全 > 实用文>基于定点LMS算法的自适应天线阵技术及其FPGA实现

基于定点LMS算法的自适应天线阵技术及其FPGA实现

2023-09-14 08:58:36 收藏本文下载本文

“MavisRepublic”通过精心收集，向本站投稿了9篇基于定点LMS算法的自适应天线阵技术及其FPGA实现，下面是小编整理后的基于定点LMS算法的自适应天线阵技术及其FPGA实现，希望能帮助到大家!

篇1：基于定点LMS算法的自适应天线阵技术及其FPGA实现

基于定点LMS算法的自适应天线阵技术及其FPGA实现

如何在满足实时性及精度的前提下实现LMS算法一直是工程上的.难点.根据SINR(信干噪比)对天线阵元的输入信号进行了建模,提出一种适合于FPGA(现场可编程门阵列)实现的定点数制,并在满足算法实时性的前提下在FPGA上实现了LMS(最小均方)算法.测试结果表明采用这种定点数制的算法所形成的天线阵方向图具有较好的性能.

作者：杜勇朱亮韩方剑韩方景 DU Yong ZHU Liang HAN Fang-jian HAN Fang-jing 作者单位：国防科学技术大学电子科学与工程学院,长沙,410073 刊名：电光与控制 ISTIC PKU英文刊名：ELECTRONICS OPTICS & CONTROL 年，卷(期)： 13(3) 分类号：V271.4 关键词：自适应天线阵定点数制 LMS算法 FPGA

篇2：自适应算术编码的FPGA实现

摘要：在简单介绍算术编码和自适应算术编码的基础上，介绍了利用FPGA器件并通过VHDL语言描述实现自适应算术编码的过程。整个编码系统在LTERA公司的MAX+plusⅡ软件上进行了编译仿真，测试结果表明：编码器各个模块的设计在速度和资源利用两方面均达到了较优的状态，可以满足实时编码的要求。

关键词：算术编码自适应FPGAVHDL仿真

算术编码是一种无失真的编码方法，能有效地压缩信源冗余度，属于熵编码的一种。算术编码的一个重要特点就是可以按分数比特逼信信源熵，突破了Haffman编码每个符号只不过能按整数个比特逼近信源熵的限制。对信源进行算术编码，往往需要两个过程，第一个过程是建立信源概率表，第二个过程是对信源发出的符号序列进行扫描编码。而自适应算术编码在对符号序列进行扫描的过程中，可一次完成上述两个过程，即根据恰当的概率估计模型和当前符号序列中各符号出现的频率，自适应地调整各符号的概率估计值，同时完成编码。尽管从编码效率上看不如已知概率表的情况，但正是由于自适应算术编码具有实时性好、灵活性高、适应性强等特点，在图像压缩、视频图像编码等领域都得到了广泛的应用。

现场可编程门阵列（FPGA）是一种新兴的可编程逻辑器件，具有更高的密度、更快的工作速度和更大的编程灵活性，被广泛应用于各种电子类产品中。而硬件描述语言（HDL）是一种快速的电路设计工具，其功能涵盖了电路描述、电路合成、电路仿真等的三大电路设计工作。VHDL是HDL的一种，因其简单易懂而被广泛使用。本文采用VHDL编程实现了自适应算术编码，为算术编码器的硬件实现提供了借鉴。

1算术编码的基本原则[1]

实现算术编码首先需要知道信源发出每个符号的概率大小，然后再扫描符号序列，依次分割相应的区间，最终得到符号序列所对应的码字。整个编码需要两个过程，即概率模型建立过程和扫描编码过程。

算术编码的基本原理是：根据信源可能发现的不同符号序列的概率，把[0，1]区间划分为互不重叠的子区间，子区间的宽度恰好是各符号序列的概率。这样信源发出的不同符号序列将与各子区间一一对应，因此每个子区间内的任意一个实数都可以用来表示对应的符号序列，这个数就是该符号序列所对应的码字。显然，一串符号序列发生的概率越大，对应的子区间就越宽，要表达它所用的比特数就减少，因而相应的码字就越短。

图1给出一个实现算术编码的示例。要编码的是一个来自四符号信源{A，B，C，D}的由五个符号组成的'符号序列：ABBCD。假设已知各信源符号的概率分别为：P（A）=0.2,P(B)=0.4,P(C)=0.2,P(D)=0.2。编码时，首先根据各个信源符号的概率将区间[0，1]。分成四个子区间。符号A对应[0，0.2]，符号B对应[0.2,0.6]，符号C对应[0.6,0.8]，符号D对应[0.8,1.0]。符号序列中第一个符号是A，其对应的区间为[0,0.2]，接下来将这个区间扩展为整个高度，再根据各个信源符号的概率将这个间扩展为整个高度，再根据各个信源符号的概率将这个新区间分成四段；第二个符号是B，它对应新的子区间的第二个子区间，即对应区间[0.04,0.12]；再将该区间扩展为整个高度，再根据这个过程直接最后一个符号得到一个区间[0.08032,0.0816]，这样该区间内的任何一个实数就可以表示整个符号序列，如0.081。

篇3：自适应算术编码的FPGA实现

自适应算术编码在一次扫描中可完成两个过程，即概率模型建立过来和扫描编码过程。

自适应算术编码在扫描符号序列前并不知道各符号的统计概率，这时假定每个符号的概率相等，并平均分配区间[0，1]。然后在扫描符号序列的过程中不断调整各个符号的概率。同样假定要编码的是一个来自四符号信源{A，B，C，D}的五个符号组成的符号序列：ABBCD。编码开始前首先将区间[0,1]等分为四个子区间，分别对应A，B，C，D四个符号。扫描符号序列，第一个符号是A，对应区间为[0,0.25]，然后改变各个符号的统计概率，符号A的概率为2/5，符号B的概率为1/5，符号C的概率为1/5，符号D的概率为1/5，再将区间[0,0.25]等分为五份，A占两份，其余各占一份。接下来对第二个符号B进行编码，对应的区间为[0.1,0.15],再重复前面的概率调整和区间划分过程。具体的概率调整见表1。

篇4：自适应算术编码的FPGA实现

3.1总体设计

在利用FPGA实现自适应算术编码的过程中，首先遇到的问题就是将浮点运算转化为定点运算，即将[0,1]区间的一个小数映射为一个便于硬件实现的定点数。考虑到硬件实现的简便性，本文中将[0,1]之间的浮点数与[0,256]之间的定点数对应。相应的对应关系如表2所示。

表2浮点与定点之间的关系

浮点00.20.50.71定点051128179256

编码器在实现编码的整个过程中按照耦合弱、聚合强的原则分为四个模块：修改码表、计算确定区间、并行编码、串行输出。四个模块相对独立，通过输入、输出信号使其构成一个整体。系统的顶层结构如图2所示。

3.2码表的设计及修改

自适应算术编码器可以在许多场合中得到应用。本文实现的自适应算术编码器应用在采用6符号对小波变换系数进行零树编码的小波域视频编码中[3]，因此设计的码表中含有六个符号。这样根据自适应算术编码的基本原理，将区间分成六个子区间，整个区间含水量有七个分割点。所以码表可以用七个8位寄存器表示。初始时设定等概率，这时七个寄存器可以顺序地存储0到6这七个数，即每个子区间的数值为1。随着符号不断地输入，自适应地修改码表，并且在修改码表的过程中时刻要保持寄存器中的数值是递增的。

修改码表时，首先判断输入符号，确定其所在区间，同时为后续模块输出该子区间的两个端点值l_count和h_count以及码表的最后一个端点值scale，然后进行码表的修改：将当前符号所在区间之后的所有端点值都加1，即当前区间及后面所有子我间的h_count=h_count+1,这样即完成了码表的修改。在数值不断累加过程中，寄存器中的数值为255时，需要对每一个寄存器中的值都取半，并同时对相邻的两个寄存器中的值进行比较，时刻保持数值是递值的。这样，处理前后的概率十分接近，对压缩比影响不大。

修改码表模块在输出h_count、l_count和scale之后，后面的计算子区间的模块即可进行计算；而修改码表模块在输出h_count、l_count和scale之后，亦可进行码表的修改。因此，这两个操作可以采用并行处理的方法实现，极大地节省了所用的时钟周期，相应地提高了速度，达到了优化的目的。表3给出了输入符号为3（对应于寄存器2与寄存器3之间的区间）时码表的修改过程。

表3码表修改前后对照表

寄存器0123456修改前04345677112233修改后04345778113234修改前023545657234255修改后011272829117127

3.3区间计算及确定

初始时符号所在的总区间为high=0xff,low=0(high和low分别表示已编码的符号序列所在子区间的上下界)。随着符号的不断输入，high和low的值也不断地减小，用以表示输入符号序列所对应的子区间。通过如下的公式可确定输入符号的区间：

计算时，最耗资源的是乘法器和除法器。本方案中乘法器采用参数化模块lpm中的lpm_mult生成。而除法器则自动编写。虽然占用的时钟周期较多，但与使用lpm相比，这样做可以大大地提高工作频率，从总体上提高性能。

3.4并行编码

在区间计算过程中，high和low总是有限值，不可能无限制地划分下去。为了能够实现连续的编码，通过对high和low的处理，可以实现利用有限长的寄存器表示无限精度的区间，即在不断修改high和low的过程中输出high和low中相同的高端位，形成输出码流。详细过程如下：

在区间确定之后，将low和high按位比较，若首位相同，则输出首位二进制码，产生输出码流，同时把low和high左移，low末位补0，high末位补1。循环比较输出，直到首位不同为止。如：

high=00110110

low=00100111

输出码流为001,而high和low的结果为：

high=10110111

low=00111000

通过这种连续地处理便可生成符号序列的自适应算术编码结束。但随着待编码符号序列的不断输入，可能会出现high和low十分接近，并且high和low的首位没有相同位的情况，如：

high=10000000

low=01111111

称这种现象为产生了下溢。产生下溢后，后面的编码都失去了意义，此时需要特殊处理。

对于下溢的处理方法为：保留首位，同时删除紧接在首位后的high中连续的0和low中连续的1，并且保证对high和low删除的位数相同，若连续0和连续1的位数不同，则取其较小者；然后high和low左移相同的位数，同时high的低位补1，low的低位补0。表4给出了下溢处理前后high和low值。

表4下溢处理前后对照表

下溢处理前下溢处理后下溢个数high10001000110001113low0111011100111000

经过处理后，扩大了区间，使得后面的编码可以顺利地进行。

在考虑了下溢的编码输出中，下溢作为输出码流的一部分，使得解码时能对下溢进行同样的处理，达到编解码的一致。但是下溢产生后并不马上输出，只记下下溢的个数，下溢则是在下一个符号编码时进行输出的。在下一个符号编码时，如果high和low比较后高端有相同位则输出下溢，即在第一个输出后紧接着插入首位的反，插入首则反的个数为前面产生下溢的个数，然后输出相同的次高位及以后相同的各位。这样处理既保留了下溢的信息又使得输出码流不偏离编码符号所在的子区间，使得解码时很容易处理。但是如此high和low比较后没有相同输出则不输出下溢，而是把两次产生的下溢的个数进行累加，再输入下一个符号，直到high和low有相同首位才输出下溢。

例如：在一个符号编码计算后得到的high=11010010和low=11001101，而前一个符号编码产生的下溢为1个，比较后输出为1010，同时记录下产生的下溢2个，如表5所示。

表5含有下溢的编码输出

highlow下溢输出编码输出前110100101100110111010编码输出后11011111001000002

3.5串行输出

并行编码后产生的码流存储在并行数据中，但在大多的情况下只有两、三个输出，甚至没有输出，若采用并行输出，就会产生极大的浪费。为了充分利用资源，在并行编码之后进行并/串转换，使其一位一位地输出，并且这个输出过程与下一个符号编码的过程并行完成，因此并不占用多余的时钟周期。

在编码过程中，当一个符号编码结束后，触发reload信号，通知此次编码结束，进行下一次编码，读取输入的符号。同时需判断输入是否合法，如果是合法的输入，就进行编码；否则停止编码，否则停止编码，处于等待状态，直到复位信号ret置1，重新初始化、编码。

图3

4仿真结果

本文算法采用VHDL硬件描述语言实现，并在ALTERA公司的MAX+plusⅡ软件上编译仿真。市府采用全局同步时钟，避免了毛剌的产生，保证了信号的稳定性。编码的仿真结果如图书3所示。

其中，rst、clk、c为输入信号，rst为模块中各寄存器的初始化信号，clk为时钟同步信号，而c则为输入的编码信号；out_flag、out_bit、reload、end_code、为输出信号，out_flag和out_bit分别为输出标志位和输出位（若out_falg=1,则此时out_bit为有效输出；否则out_bit输出无效），reload为一个符号编码结束）下一个符号输入的标志位，end_code为编码结束的标志（若end_code=0，则继续编码，否则编码结束）。

在进行性能仿真时[4]，采用的器件是FLEX1K系列的EP1K30TC144-1器件，其最大工作频率为40MHz，消耗1533个LC，平均编码时间为20个时钟周期。一个符号的编码时间不到500ns，对于QCIF格式的图像完全可以满足每秒钟实时编码30帧图像的要求。

自适应算术编码是一种效率很高的无失真编码，本文通过VHDL语言实现了自适应的算术编码，在编码过程中，根据硬件结构的特点，充分利用其并行特性。通过并行执行，实现了速度的优化。由于满足每秒钟编码30帧图像的要求，因此可以应用于视频图像的实时编码中。

篇5：自适应算术编码的FPGA实现

概率ABCD初始1/41/41/41/4传输A后2/51/51/51/5传输B后2/62/61/61/6传输B后2/73/71/71/7传输C后2/83/82/81/8传输D后2/93/92/92/9

随着符号序列中符号个数的不断增多，自由适应算术编码估计得到的各符号的概率将趋于各符号的真实概率。

篇6：3-DES算法的FPGA高速实现

引言

从技术角度讲，网络安全除了依赖安全的网络通信协议及应用协议外，更多地取决于网络设备如交换机、路由器等所提供的加/解密功能。目前，基于DES算法的加/解密硬件仍在广泛应用于国内卫星通信、网关服务器、机顶盒、视频传输以及其它大量的数据传输业务中。

然而，随着密码分析技术的不断发展，超期服役的DES算法已被攻破，随即美国商业部提出采用以Rijndael算法的AES作为新一代的加密算法。在不对原有应用系统作大的改动的情况下，3-DES算法有了很大的生存空间，被大量用来替换已不安全的DES算法。所以对3-DES算法的高速实现，仍具有一定的实际应用意义。

13-DES算法介绍

，NIST将3-DES指定为过渡的加密标准。3-DES是DES的一个更安全的变形（关于DES算法的详细资料，可见参考文献[1]、[2]）。DES算法运算的框图如图1。其中S盒是3-DES（DES）算法的心脏，靠它实现非线性变换。

dk(x)表示用DES算法对64位的.位串的加密和解密，密钥为K；则64位的密文c是通过执行下面的运算得到的：

其中K1、K2、K3是56位的DES密钥。

从密文c导出明文x的3-DES的解密过程是加密过程的反过程，其描述如下：

其结构如图2。

为了获得更高的安全性，三个密钥应该是互不相同的。这样，本质上就相当于用一个长为168位的密钥进行加密。多年来，它在对付强力攻击时是比较安全的。对安全性需要不那么高的数据，K1可以等于K3。在这种情况下，密钥的有效长度为112位。

在通常使用的所有64位的分组密码中，3-DES是最安全的；但是，如果用软件来实现，它也是这些分组密码中最慢的。通过硬件设计，3-DES的性能胜过大多数其它用软件实现的分组密码。

2FPGA实现设计

本设计采用实验室现有试验开发板上Xilinx公司SPARTANII结构的XC2S100作为算法载体，在其中实现控制器和三个DES模块以及密钥的生成，通过控制器实现加、解密功能。从上边的介绍可以看到，3-DES（DES）算法没有大量的复杂数学计算（如乘、带进位的加、模等），在加/解密过程和密钥生成过程中仅有逻辑运算和查表运算。这些特点为采用FPGA进行高速设计提供了契机。

2.1DES模块的设计结构

每个DES模块的实现是用一个轮函数实现的16份拷贝通过深度细化的流水线处理来完成的，以获得最高的性能。

采用循环全部打开和流水线结构来设计。循环全部打开后，实现全部16轮结构并串在一起，只要一个时钟周期就可以完成一个数据块的加密或解密；通过多占很大的空间来换得速度上的大幅度提高，然后再在每轮的中间加上寄存器来实现流水线。在第一时钟周期，第一块数据经过第一轮处理存入寄存器1中。在下一个时钟周期，寄存器1中的结果经过第二轮处理存入寄存器2中；同时，第二块数据可以经过第一轮处理存入寄存器1。这样，多块数据实现了同时处理。另外，在设计中通过使用16个寄存器，使得加/解密速度可以提高近16倍。在DES模块的每一轮中设计3级流水线，尽管这样增加了48个周期的时延，但却进一步提高了整体处理的速度性能；同时，将数据加/解密部分和密钥生成部分分开单独设计，可以减少相邻流水线级间的逻辑层数目。

2.2S盒设计

通过时间分析发现，S盒在整个设计中占了很大的比重。S盒性能的提高对于整个设计性能会有很大的改善，因此S盒是整个设计优化的重点。

DES的8个S盒分别是一个满足特殊性能的6~4位的变换。在VHDL或Verilog语言中，可以直接用CASE语句来实现。这是最简单的实现方法，但是HDL语言都属于高级语言，它们强烈依赖于编译器的优化能力，往往对设计者来说，涉及得越少、编程越简单，代码效率越不高，这对于高速实现来说是不可取的。在实现过程中通过分析工具也发现，依赖于编译器的实现不但复杂，而且占用大量的空间。这样，S盒成了速度的瓶颈，为此，采用ROM来实现。XC2S100的LUT可以配置为16×1位的ROM，把输入的6位作为地址，对应的地址空间里存放的就是输出的4位，从而实现了6~4位的查找表LUT，所需时间只是FPGA中CLB的传输时间加上传输线上的延时，如图3。

2.3密钥生成器设计

密钥生成器的设计是独立于DES轮函数运算实现的，采用3级流水线来与轮函数中的流水线相平衡，单轮的实现如图4。

其中，3级流水线由移位寄存器（SR）和1个触发器(FF)构成，在SR中完成两级流水线，在FF中实现第三级。XC2S100的LUT中的每个查找表LUT可以用来生成1～16个移位寄存器，而且在一个单独的可配置逻辑功能块CLB中连接8个移位寄存器来构成一个128位的移位寄存器。

图53-DES实现的结构

2.43-DES的实现

将上述所设计的三份DES模块在FPGA中组合，实现如图5所示的完整连接。整个时延约为单个DES模块的三倍。

结语

我们在Xilinx的开发平台Foundation4.2i下用VerilogHDL完成设计，并进行了综合和仿真；成功下载到我们实验室的试验板上的XC2S100中，用VC++6.0编写了测试程序；在Windows98下运行，均能正确实现加/解密功能。在试验板上晶振为25MHz的情况下，大致评测出加密速度为520Mb/s。

篇7：基于LMS格型算法的自适应参数谱估计方法

基于LMS格型算法的自适应参数谱估计方法

研究了自适应参数谱估计的基本原理,提出了基于最小均方误差(MMSE)准则的LMS格型滤波算法实现自适应参数谱估计的方法.通过对仿真测试信号和线性调频信号的计算表明,该方法能够在改善谱分辨率的'同时提高运算效率,满足遥测速变信号的处理和分析计算的要求.

作者：朱学锋 ZHU Xue-feng 作者单位：92941部队・辽宁葫芦岛・125000 刊名：飞行器测控学报 ISTIC英文刊名：JOURNAL OF SPACECRAFT TT & C TECHNOLOGY 年，卷(期)： 26(3) 分类号：V557.3 关键词：功率谱 AR模型自适应算法格型滤波器 LMS算法

篇8：数字签名算法SHA-1的FPGA高速实现

数字签名算法SHA-1的FPGA高速实现

摘要：随着网络的迅速发展，信息安全越来越重要，信息认证是验证收到信息来源和内容的基本技术。常用的信息验证码是使用单向散列函数生成验证码，安全散列算法SHA-1使用在是因特网协议安全性(IPSec)标准中。在设计中使用FPGA高速实现SHA-1认证算法，以PCI卡形式处理认证服务。

关键词：数字签名算法；现场可编程门阵列(FPGA)；计算机安全

引言

随着网络的迅速发展，对安全性的需要越发重要。然而，尽管网络技术进步很快，安全性问题仍然相对落后，并且在很多情况下只能靠虚拟私人网VPN和防火墙。因虚拟私人网是构建在Internet外部结构上的，必须采取某些措施保证安全性问题。一种方法是使用因特网协议安全性(IPSec)标准。IPSec是一组协议，它在IP协议层提供安全保密的通信。IPSec协议有通道和传输两种通信模式，为了保证在高速通信中的数据安全，在设计中使用硬件加速来实现IPSec中的加密和认证。IPSec中的加密部分使用三重DES算法，或使用RC5、IDEA、Blowfish和CAST-128等算法作为加密手段。在IPSec协议中认证使用SHA-1和MD5单向散列函数算法实现，通过使用FPGA高速实现SHA-1消息认证算法。

SHA-1算法介绍

安全散列算法SHA(SecureHashAlgorithm，SHA)是美国国家标准和技术局发布的国家标准FIPSPUB180-1，一般称为SHA-1。其对长度不超过264二进制位的消息产生160位的消息摘要输出，步骤如下。

首先填充消息使其长度恰好为一个比512的倍数仅小64位的数。填充方法是附一个1在消息后面，后接所要求的多个0，然后在其后附上64位的消息长度(填充前)，使消息长度恰好是512位的整数倍。

5个32位变量，用十六进制表示初始化。然后开始算法的主循环，一次处理512位消息，循环次数是消息中512位分组的数目。

先把这五个变量复制到另外的变量中，A到a，B到b，C到c，D到d，E到e。

主循环有4轮，每轮20次操作，每次操作对a、b、c、d、e中的3个进行一次非线性运算，后进行移位和加运算，运算的过程见图1。a、b、c、d和e分别加上A、B、C、D和E，然后用下一数据分组继续运行算法。最后的输出由A、B、C、D和E级联而成。

SHA-1算法的FPGA实现

实现SHA-1算法时，用软件先对消息进行预处理，使消息长度恰好是512位的整数倍，再以FPGA实现对消息摘要计算的加速。

FPGA的编程一般用VerilogHDL或者VHDL进行，本设计采用了VHDL语言对SHA-1算法进行描述。SHA-1算法FPGA加速器实现分为两大部分，分别是80个32位临时值Wt(W0至W79)的生成，以及对32位临时值Wt循环处理生成160位的消息摘要。图2为将子分组Mj(0≤j≤15)变成80个32位Wt(Kt至W79)的电路框图，在设计时，用512位寄存器和2个多路选择器生成临时值Wt(0≤t≤79)。

图3中160位输入数据缓冲器用来放置初始数据(5个32位变量A、B、C、D和E)，而F1234代表SHA-1算法中的4组非线性函数ft(X,Y,Z)，根据需要用多路选择器Mux-1选择其中一个(ft(X,Y,Z)=(X∧Y)∨((X)∧Z)，对于t=0至19；ft(X,Y,Z)=XYZ，对于t=20至39；ft(X,Y,Z)=(X∧Y)∨(X∧Z)∨(Y∧Z)，对于t=40至59；ft(X,Y,Z)=XYZ，对于t=60至79)，4个常数为Kt存在ROM中(即组件)，32×5加法器将5个32位数相加，为加快相加的计算速度使用先行进位加法器来执行，具体连接结构见图4。

采用Aldec公司的ActiveHDLV5.1对SHA-1算法进行功能模拟，测试值和中间结果使用Crypto++中的库函数的输入值和运算结果，并使用这些测试值和中间结果对SHA-1算法的VHDL语言描述进行验证和查错，经验证的SHA-1算法的VHDL语言描述使用Xilinx公司的ISE4.1进行逻辑综合、映射、布局和布线，生成网表用于时序仿真，最后将bitstream文件下载FPGA器件上，完成设计开发。

FPGA的外围电路和控制软件

将SHA-1算法的`FPGA实现做在PCI卡(安全性算法协处理器)上，实现协议中的安全性算法。在安全性算法协处理器中，FPGA执行加密解密操作，PIC控制器(用Zenic公司的ZEN7201AF)作为PIC总线与协处理器的接口，SRAM存置FPGA的配置数据，配置控制器(用Xilinx公司的XC95108-7实现)输出地址和数据信号对FPGA进行配置，用Realtek公司的网络控制器RTL8019AS实现PCI卡与网络连接，协处理器的结构见图5。而FPGA的配置数据(加密

算法的FPGA高速实现)放在硬盘上，通过操作系统BSDUnix4.4中的PCI卡设备驱动程序，经由PCI总线下载到安全性算法协处理器的SRAM中，后用各种加密算法的配置数据对FPGA进行配置，实现真正“现场可编程”，各种加密解密算法都可以通过FPGA的内部配置用硬件结构实现了。

在软件控制方面，安全性算法协处理器驱动程序是通过函数Sebsw_intr直接控制协处理器，此函数有来自网络控制器的中断和来自操作系统内核的时钟中断两个输入；Sebsw_hdr_chk()检验消息包的头部，如果发生硬件中断，Sebsw_intr()调用Sebsw_hdr_chk()函数；函数ether_input()检查接收到的数据类型，将接收到的分组加入到队列处理；函数ipinput()决定分组的最终地址，如果最终地址为本地地址，函数将分组传给更上一层软件，如果最终地址为非本地地址，则将分组传给ip_forward()；函数ip_output()从收到的数据中生成IP数据包，然后Sebsw_start()将数据包传给网络控制器。软件控制结构见图6。

结束语

实验结果表明，在FPGA的频率为31.42MHz时，数据处理速度为214Mb/s，完全满足设计要求。本设计是课题“因特网协议安全性(IPSec)标准FPGA高速实现”的一部分，设计中还将包括三重DES算法、IDEA算法、高级加密标准AES等。

篇9：固定几何结构的FFT算法及其FPGA实现

固定几何结构的FFT算法及其FPGA实现

1．引言

DFT及其快速算法FFT是信号处理领域的核心组成部分。FFT算法多种多样，按数据组合方式不同一般分时域和频域，按数据抽取方式的不同又可分为基2，基4等。各算法的优缺点视不同的制约因素而不同。FFT的实现方法也多种多样，可以用软件实现，也可以用硬件实现，用软件在PC机或工作站上实现则计算速度很慢。一般多结合具体系统用硬件实现。例如用单片机或DSP实现。但是速度仍然很慢，难以与快速的A/D器件匹配。在雷达信号处理领域主要追求的目标是速度，即实时性的要求非常高。针对这种快速信号处理的要求及FPGA器件的特点，本文采用的是一种基2固定几何结构的FFT算法。采用的是Altera公司推出的最新器件Stratix来做硬件仿真。Stratix器件是一款采用高性能结构体系的PLD器件。它结合了强大内核性能，大存储带宽，数字信号处理（DSP）功能，高速I/O性能和模块化设计与一体的PLD。其内嵌的DSP模块具有很高的乘法运算速度。在用VHDL编程时可以用MegaWizard的方法指定用DSP模块生成乘法器，用这种乘法器来做蝶形，用多个蝶形来构成FFT运算级，通过循环即可实现FFT核心运算的并行化。用Altera公司的Quartus软件做逻辑分析和波形分析。Quartus软件具有很强的硬件仿真和逻辑分析功能，它可将用VHDL编写的硬件描述综合到FPGA中。

2．算法介绍

为了说明问题的方便，下面以基2，八点FFT为例加以说明。传统的基2变几何结构算法如下（图一）：箭头上的数字代表旋转因子中的k。图中输入采用的是按码位颠倒的顺序排放的。输出是自然顺序。这种结构的特点是每个蝶形的输出数据仍然放在原来的输入的数据存储单元内，这样只需要2N个存储单元（FFT中的数据是复数形式，每点需要两个单元存储）。其缺点是不同级的同一位置蝶形的输入数据的寻址不固定，难以实现循环控制。用FPGA编程时难以并行实现，数据处理速度慢。当FFT的点数增加时更是如此。通过观察传统结构的FFT算法可以发现，如果将第一级中间的两个蝶形交换，则可以得到如下结构（图二）：

对此结构进行进一步的变换，将第二级的输出不送回原处而是将其存储起来并按顺序存放，则第三级中间的两个蝶形跟着调换，并把输入按顺序排列，就变成了如下（图三）所示的固定结构的FFT了。在蝶形变换的同时，其旋转因子也跟着调换。

出数据的顺序是不变的，因此每级几何结构是固定的。用这种结构寻址方便，易于用FPGA编程，实现内部并行的FFT硬件结构，从而明显加快FFT的运算速度。

3．FPGA硬件实现

FPGA器件的特点是可用硬件描述语言对其进行灵活编程。利用FPGA厂商提供的软件可仿真硬件的功能。使硬件设计如同软件设计一样灵活方便。缩短了系统研发周期。利用JTAG接口可对其进行ISP(In System Programmable 在系统编程)提高了系统的灵活性。随着芯片集成度的提高，单片FPGA内不仅拥有大量的逻辑单元而且还能集成RAM,ROM,I/O及DSP块等。从而使SOC(System On_a_Chip 片上系统)成为现实。本文采用的是Altera公司的Stratix系列芯片的EP1s25。用Altera公司的QuartusII2.0软件做硬件仿真和逻辑分析。并将输出结果与Matlab仿真结果进行了比较。系统框图如下（图四）：

代码用VHDL硬件描述语言实现。本系统的结构特点是：1。为提高数据精度，系统全部用16位宽。用data_array，write_array和fly_array三个数组实现了内核的并行处理，可在10个时钟周期内算完32点复FFT。时钟周期为25纳秒，因此32点FFT只需250纳秒。2。实现了数据的流水输入输出。在计算第i组数据的.同时，第i-1组的数据FFT结果正在串行输出，第i+1组的数据则正在串行输入。因为内核计算是并行的，速度快，所以可以有很高的串行输入。本系统的A/D采样频率可达200MHz。仿真所用的信号是：

x(t)= (0.5*sin(2*n*pi/4.7)+0.5*sin(2*n*pi/16.3)+0.1*rand(1,32))*1000

输入数据为32点复数，系统仿真波形如下（局部）：

用FPGA输出的FFT的结果（图六）和用Matlab计算的FFT理论结果（图七）,其频谱如下：

此信号是由两个正弦波叠加一个随机函数构成的。信噪比为14db。为切合工程实际，仿真信号采用的是实信号，其频谱具有对称性，因此图中只取32点仿真结果的一半即16点便可。

4．结论

通过比较可以看出仿真结果与理论值吻合的很好。Altera公司采用传统结构的FFT算法其32点的运算时间大于1.0us。用DSP做的32点FFT时间也要1.0us以上。本系统的最大优势在于利用FPGA器件丰富的逻辑资源，内嵌的RAM,ROM块及其灵活的可编程特性采用固定几何结构的FFT算法使运算速度较传统方法有了很大提高。当然付出的代价是用这种并行的结构需求的硬件资源很多。随着芯片集成度的不断提高，用这种并行结构实现的FFT运算其优越性将越来越明显。而且用这种结构实现的FFT很容易扩展。只需要增加蝶形的个数和循环次数即可。详细说明见 VHDL源程序。

【基于定点LMS算法的自适应天线阵技术及其FPGA实现】相关文章：

1.python标准算法实现数组全排列的方法

6.无功补偿技术在电气自动化领域的具体实现论文

7.豆渣的有效利用技术继日本后在美国实现商业化