前言

之前的项目中使用RT1052的FlexSPI X8 接口与FPGA通信成功，但是100MHz的SCLK时钟频率，通信速度只达到了9MB/S左右，通信效率不高。最近有项目需要高速通信，重新翻出以前的代码进行优化，成功让FlexSPI接口与FPGA通信速度达到76.9MB/S（理论上还可以更高，待继续优化）。

分析

通过分析，一方面是串行接口需要传输指令、地址、数据长度等信息，如果一次传输4字节（传输长度受AHB总线和是否启用Cache等因素影响），这几个信息就占用了超过一半的带宽资源（见如下LUT表指令 Read Data 描述），另一方面没有启用缓存和Dcache功能，没有发挥iMXRT芯片的实力。

LUT表如下

static const uint32_t customLUT[CUSTOM_LUT_LENGTH] = {/* Read Data */[4 * FPGARAM_CMD_LUT_SEQ_IDX_READDATA] =FLEXSPI_LUT_SEQ(kFLEXSPI_Command_SDR, kFLEXSPI_8PAD, 0xA0, kFLEXSPI_Command_RADDR_SDR, kFLEXSPI_8PAD, 0x18),// 指令 0xA0,地址长度0x18 = 24位[4 * FPGARAM_CMD_LUT_SEQ_IDX_READDATA + 1] =FLEXSPI_LUT_SEQ(kFLEXSPI_Command_DATSZ_SDR, kFLEXSPI_8PAD, 0x08, kFLEXSPI_Command_DUMMY_SDR, kFLEXSPI_8PAD, 0x01), //  DATSZ_SDR 可用于通知外部设备有多少个时钟周期  添加一个kFLEXSPI_Command_DUMMY_SDR 周期用于等待DQS切换方向[4 * FPGARAM_CMD_LUT_SEQ_IDX_READDATA + 2] =FLEXSPI_LUT_SEQ(kFLEXSPI_Command_READ_SDR, kFLEXSPI_8PAD, 0x04, kFLEXSPI_Command_STOP, kFLEXSPI_8PAD, 0x00),/* Write Data */[4 * FPGARAM_CMD_LUT_SEQ_IDX_WRITEDATA] =FLEXSPI_LUT_SEQ(kFLEXSPI_Command_SDR, kFLEXSPI_8PAD, 0x20, kFLEXSPI_Command_RADDR_SDR, kFLEXSPI_8PAD, 0x18),[4 * FPGARAM_CMD_LUT_SEQ_IDX_WRITEDATA + 1] = FLEXSPI_LUT_SEQ(kFLEXSPI_Command_DATSZ_SDR, kFLEXSPI_8PAD, 0x08, kFLEXSPI_Command_DUMMY_SDR, kFLEXSPI_8PAD, 0x01),[4 * FPGARAM_CMD_LUT_SEQ_IDX_WRITEDATA + 2] = FLEXSPI_LUT_SEQ(kFLEXSPI_Command_WRITE_SDR, kFLEXSPI_8PAD, 0x04, kFLEXSPI_Command_STOP, kFLEXSPI_8PAD, 0x00),
};

FPGA设备访问描述配置如下

static flexspi_device_config_t deviceconfig = {.flexspiRootClk = 120000000,  //此处赋值只是用于库函数FLEXSPI_SetFlashConfig 把它作为时间基准进行运算的.isSck2Enabled = false,.flashSize = M_FLASH_SIZE,.CSIntervalUnit = kFLEXSPI_CsIntervalUnit1SckCycle,.CSInterval = 0,        //CS的最小 宽度.CSHoldTime = 1,        //SCK最后一个时钟沿到CS上升沿的延迟.CSSetupTime = 0,       //CS下降沿到 SCK上升沿时钟.dataValidTime = 1,     //单位是0.1nS  // 速度低于100M时才有效.columnspace = 0,       //列地址宽度.enableWordAddress = true,.AWRSeqIndex = FPGARAM_CMD_LUT_SEQ_IDX_WRITEDATA,.AWRSeqNumber = 1,.ARDSeqIndex = FPGARAM_CMD_LUT_SEQ_IDX_READDATA,.ARDSeqNumber = 1,.AHBWriteWaitUnit = kFLEXSPI_AhbWriteWaitUnit2AhbCycle,.AHBWriteWaitInterval = 0,      //0AHB时钟延迟.enableWriteMask = false,       //写外部器件时DQS信号输出
};

解决思路

NXP官方有一个文档《AN12239 如何在 i.MX RT 上使用 HyperRAM》

https://download.csdn.net/download/catshit322/87580645

描述了提高FlexSPI访问速度的方法：

提高时钟速度

将数据放在DTCM，将代码放在ITCM中

启用预读取和写入缓冲

开启Dcache

受代码体积影响，我将代码全部放在SDRAM中运行，由FPGA独占FlexSPI接口访问带宽

实现

代码运行在SDRAM中

我的应用是将代码放在SPI Flash中存储，通过修改分散加载文件和拷贝中断向量表的方式，启动后将代码搬移到SDRAM中，再重新配置FlexSPI接口，然后通过AHB方式开始访问FPGA，FPGA通过FIFO的方式将数据进行输出，由于我的应用中通过地址区分需要发送的数据，因此地址字段（下图中0x30,0x0C,0x50）不能省去，只用到地址的最高4位，后面的数据用来实现FIFO连续输出。数据长度字段（0x20）用于通知FPGA输出多少个数据。如果不开启Cache功能，每次只能传输4字节（uint32_t）或8字节(uint64_t)，下图是开启了缓冲功能后的时序图，每次可以传输32字节（与AHB RX buffer 缓冲区设置大小有关）。

初始化接口

使用的FlexSPI初始化函数如下：


void flexspi_init(void)
{flexspi_config_t config;flexspi_gpio_init();SCB_DisableDCache();/* Wait for bus to be idle before changing flash configuration. */while (false == FLEXSPI_GetBusIdleStatus(EXAMPLE_FLEXSPI)){}const clock_usb_pll_config_t g_ccmConfigUsbPll = {.loopDivider = 0U};FLEXSPI_Deinit(EXAMPLE_FLEXSPI);//初始化USB1PLL,即PLL3,loopDivider=0//所以USB1PLL=PLL3 = 24*20 = 480MHzCLOCK_InitUsb1Pll(&g_ccmConfigUsbPll);  //Set PLL3 PFD0 clock: PLL3*18/24 = 360MHZCLOCK_InitUsb1Pfd(kCLOCK_Pfd0, 24);   //选择PLL3 PFD0作为flexspi时钟源//00b derive clock from semc_clk_root_pre//01b derive clock from pll3_sw_clk//10b derive clock from PLL2 PFD2//11b derive clock from PLL3 PFD0  CLOCK_SetMux(kCLOCK_FlexspiMux, 0x03);//设置flexspiDiv分频因子,得到FLEXSPI_CLK_ROOT = PLL3 PFD0/(flexspiDiv+1) = 120M.uint8_t div = 2;CLOCK_SetDiv(kCLOCK_FlexspiDiv, div);uint32_t coreclk = CLOCK_GetFreq(kCLOCK_CpuClk);uint32_t ahbclk = CLOCK_GetFreq(kCLOCK_AhbClk);uint32_t fpgabusclk = CLOCK_GetFreq(kCLOCK_Usb1PllPfd0Clk)/(div+1);printf("coreclk:%d  ahbclk:%d  fpgabusclk:%d\r\n", coreclk, ahbclk, fpgabusclk);FLEXSPI_GetDefaultConfig(&config);  //Get FLEXSPI default settings and configure the flexspi.config.rxSampleClock = kFLEXSPI_ReadSampleClkExternalInputFromDqsPad; // 使用外部回环 最高 166M SDR
//  config.rxSampleClock = kFLEXSPI_ReadSampleClkLoopbackInternally; // 使用内部回环 最高 60M SDR
//  config.rxSampleClock = kFLEXSPI_ReadSampleClkLoopbackFromSckPad ; //使用自SCK信号 最高133M SDR
//    config.rxSampleClock = kFLEXSPI_ReadSampleClkLoopbackFromDqsPad ; //使用自回环 最高133M SDRconfig.enableSckFreeRunning = true; ///持续运行为FPGA提供时钟config.ahbConfig.enableReadAddressOpt = false;   /// 使用FPGA fifo时应为false ，否则出现地址对齐问题同一地址多次读取FPGA无法识别config.enableCombination = true;    // 使用8位模式
//    config.txWatermark = 8;  // AHB 模式下无用
//  config.rxWatermark = 8;config.ahbConfig.enableAHBPrefetch = false; //AHB 预读取功能，开启此功能后 数据长度指令无效，无法传输准确的读取长度给FPGA，由CS引脚控制config.ahbConfig.enableAHBBufferable = true;config.ahbConfig.enableAHBCachable = true;/*Set AHB buffer size for reading data through AHB bus. */// 配置4个 AHB RX BUFFERfor(char i = 0;i < FSL_FEATURE_FLEXSPI_AHB_BUFFER_COUNT ; i++ ){
//        config.ahbConfig.buffer[i].priority = 1; config.ahbConfig.buffer[i].masterIndex = i; config.ahbConfig.buffer[i].bufferSize = 256;}FLEXSPI_Init(EXAMPLE_FLEXSPI, &config);deviceconfig.flashSize = 0x4000;   /// A1 寻址范围0x6000000  0x60FFFFFF  0x1000000 =  0x4000 * 1024FLEXSPI_SetFlashConfig(EXAMPLE_FLEXSPI, &deviceconfig, kFLEXSPI_PortA1);//A2 寻址范围 0x6100 0000 ~ 0x6184 0000+/* Set flexspi root clock. */deviceconfig.flexspiRootClk = flexspi_get_frequency();FLEXSPI_SetFlashConfig(EXAMPLE_FLEXSPI, &deviceconfig, kFLEXSPI_PortA2);//Configure flash settings according to serial flash feature.FLEXSPI_UpdateLUT(EXAMPLE_FLEXSPI, 0, customLUT, CUSTOM_LUT_LENGTH);     //Update LUT table/* Do software reset. */FLEXSPI_SoftwareReset(EXAMPLE_FLEXSPI);SCB_EnableDCache();
}

打开缓存功能

需要注意的是开始启Cache功能会导致FlexSPI接口不按预期去读取外部数据，使用时需要特别处理，有两种方法。

第一种方法

设置MPU，将FPGA映射的地址设置为Non-Cacheable。

    /* Memory with Normal type, not shareable, non-cacheable */MPU->RBAR = ARM_MPU_RBAR(10, 0x61000000U);MPU->RASR = ARM_MPU_RASR(0, ARM_MPU_AP_FULL, 1, 0, 0, 0, 0, ARM_MPU_REGION_SIZE_256MB);/// cacheable
//    MPU->RASR = ARM_MPU_RASR(0, ARM_MPU_AP_FULL, 0, 0, 1, 1, 0, ARM_MPU_REGION_SIZE_256MB);

此时

config.ahbConfig.enableAHBBufferable = true;

config.ahbConfig.enableAHBCachable = true;

选项实际不起作用，测试的读取速度如下图（时间精度为100us）

经过测试读取速度可以达到27.97MB/S，与理论速度仍有较大差距。

第二种方法

另一种方法是将FPGA映射的地址设置为Cacheable，开启缓存功能。

    /* Memory with Normal type, not shareable, non-cacheable */MPU->RBAR = ARM_MPU_RBAR(10, 0x61000000U);
//    MPU->RASR = ARM_MPU_RASR(0, ARM_MPU_AP_FULL, 1, 0, 0, 0, 0, ARM_MPU_REGION_SIZE_256MB);/// cacheableMPU->RASR = ARM_MPU_RASR(0, ARM_MPU_AP_FULL, 0, 0, 1, 1, 0, ARM_MPU_REGION_SIZE_256MB);

在读取FPGA之前先使用无效化缓存指令使内部缓存无效，强制去读取外部设备以产生访问时序。

DCACHE_InvalidateByRange((EXAMPLE_FLEXSPI_AMBA_BASE + addr), len);
DCACHE_CleanByRange((EXAMPLE_FLEXSPI_AMBA_BASE + addr), len);

然后使用AHB方式访问FPGA

flexspi_ahbcommand_read_data(addr, Psave_buf, len);   // 读数据

flexspi_ahbcommand_read_data 实现代码为

void flexspi_ahbcommand_read_data(uint32_t address, uint8_t *buffer, uint32_t length)
{uint64_t* startAddr = (uint64_t*)(EXAMPLE_FLEXSPI_AMBA_BASE  + address);uint64_t * Pbuf = (uint64_t*) buffer;uint32_t len = length/sizeof(uint64_t);for(int i = 0;i

实测通信速度如下图：

虽然与理论最大速度仍有差距，但是现阶段已经满足使用要求，待接下来有时间再继续优化。
总结
根据《AN12239 如何在 i.MX RT 上使用 HyperRAM》文档对RT1052程序进行优化，现在可以达到76.9MB/S的读取速度，受FPGA逻辑影响，无法开启所有优化方式，下一步有时间再研究如何让RT1052和FPGA通信达到官方测试的最高281MB/S的读取速度。


            
            
                
                
                词库加载错误:未能找到文件“E:\highferrum_mysql\Configuration\Dict_Stopwords.txt”。
                            
            
                
                    上一篇：本科课程【数据库实验】实验3 - 数据完整性与数据传输

                
                
                    下一篇：Trimble RealWorks处理点云数据（二）之点云切割                
            
            
            
                
                相关内容


    

    
    
        
        
            
            
                
                
                    
                    
                        
                        热门资讯
                        
                    
                    
                
                
            
            
            
            

                                
                
                    
                    
                        
                    
                    
                    
                    
                        linux入门---制作进度条
                        了解缓冲区 我们首先来看看下面的操作：  我们首先创建了一个文件并在这个文件里面添加了...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        C++ 机房预约系统（六）：学...
                        8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤： 在Student.cpp的...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        JAVA多线程知识整理
                        Java多线程基础 线程的创建和启动 继承Thread类来创建并启动 自定义Thread类的子类&#...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        【洛谷 P1090】[NOIP...
                        [NOIP2004 提高组] 合并果子 / [USACO06NOV] Fence Repair G ...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        国民技术LPUART介绍
                        低功耗通用异步接收器（LPUART） 简介 低功耗通用异步收发器...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        城乡供水一体化平台-助力乡村振...
                        城乡供水一体化管理系统建设方案  城乡供水一体化管理系统是运用云计算、大数据等信息化手段࿰...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        程序的循环结构和random库...
                          第三个参数就是步长         引入文件时记得指明字符格式，否则读入不了   ...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        中国版ChatGPT在哪些方面...
                        目录 一、中国巨大的市场需求 二、中国企业加速创新 三、中国的人工智能发展 四、企业愿景的推进 五、...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        报名开启 | 共赴一场 Flu...
                        2023 年 1 月 25 日，Flutter Forward 大会在肯尼亚首都内罗毕...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        汇编00-MASM 和 Vis...
                        Qt源码解析 索引 汇编逆向--- MASM 和 Visual Studio入门 前提知识ÿ...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        【简陋Web应用3】实现人脸比...
                        文章目录🍉 前情提要🌷 效果演示🥝 实现过程1. u...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        前缀和与对数器与二分法
                        1. 前缀和 假设有一个数组，我们想大量频繁的去访问L到R这个区间的和，...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        windows安装JDK步骤
                        一、 下载JDK安装包 下载地址：https://www.oracle.com/jav...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        分治法实现合并排序(归并排序)...
                        🎊【数据结构与算法】专题正在持续更新中，各种数据结构的创建原理与运用✨...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        在linux上安装配置node...
                        目录前言1，关于nodejs2，配置环境变量3，总结 前言...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        Linux学习之端口、网络协议...
                        端口：设备与外界通讯交流的出口 网络协议： 　　网络协议是指计算机通信网...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        Linux内核进程管理并发同步...
                        并发同步并发 是指在某一时间段内能够处理多个任务的能力，而 并行 是指同一时间能够处理...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        opencv学习-HOG LO...
                        目录1. HOG(Histogram of Oriented Gradients,方向梯度直方图)1...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        EEG微状态的功能意义
                        导读大脑的瞬时全局功能状态反映在其电场结构上。聚类分析方法一致地提取了四种头表面脑电场结构ÿ...
                    
                    
                
                                
                
                    
                    
                        
                    
                    
                    
                    
                        【Unity 手写PBR】Bu...
                        写在前面 前期积累： GAMES101作业7提高-实现微表面模型你需要了解的知识 【技...





    
    
        
        
            2025 ©
            新奥生活网华丰美文网太阳网 能源网 汇川网        
        
        
        
                        
                资讯