今天要上NCBI下载sra数据发现没有下载的链接,网上查发现都是老的方法,NCBI页面已经变更,于是看了NCBI的help,并且记录下来新版的sra数据下载方法,要用NCBI的工具SRA
Toolkit。另外咨询师兄,总结得到新的wget下载的方法。

之前一直用wget 远程下载NCBI
SRA的测序数据,但是不知怎么回事网速巨慢(<1kb);网上查了下用Aspear下载貌似还挺快,速度可达10M/S。

方法1 NCBI告知的方法(中断不能继续下载)

下载后直接解压到某个指定位置

  • 搜索SRA并获取accesion list
    在NCBI
    sra页面(https://www.ncbi.nlm.nih.gov/sra)输入登陆号%E8%BE%93%E5%85%A5%E7%99%BB%E9%99%86%E5%8F%B7)(
    accession number )进行搜索;显示搜索结果如下
    ca88手机版 2
    这里显示的是该project下的所有数据,点击一个,进入sra数据界面
    ca88手机版 3
    这里点击1GB(数据大小)的链接,进入下载界面
    ca88手机版 4
    再点击Accesion List 下载 Accesio List

  • 使用SRA Tookit 的prefetch进行下载
    prefetch 放在sratoolkit文件夹下的bin

     ~/utilities/sratoolkit.2.8.2-1-centos_linux64/bin/prefetch --option-file SRR_Acc_List.txt
    

      sra数据会下载到家目录下的ncbi/public/sra中,perfetch
    默认aspera下载(如果存在于环境变量,否则使用https下载),也可设置aspera,Ex:prefetch
    -t ascp -a
    “/opt/aspera/bin/ascp|/opt/aspera/bin/asperaweb_id_dsa.openssh”
    –option-file file.txt; file.txt
    格式为每一行一个SRR#,可以使用下载界面的RunInfo table下载的文件
    ca88手机版 5
    更详情的请查看prefetch
    帮助:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc&f=prefetch

linux版下载地址:百度网盘https://pan.baidu.com/s/1jH9Kd1O

方法2使用wget 下载

以下是NCBI 存放SRR5483089的路径
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR548/SRR5483090/
可见ftp构成:
ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/+SRR+登陆号前三位数字(548)+/SRR+完整登陆号(5483089)
进入即可看到FTP文件,可以直接下载或者通过复制链接用wget 下载

安装步骤:

  1. 解压之后  sh aspera-connect-3.6.1.110647-linux-64.sh

  2. 上述命令之后,home目录下会出现.aspera/ 的文件夹,执行文件就在里边

下载命令:

ascp -T -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -l 200m
anonftp@ftp.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByStudy/sra/SRP/SRP***/SRP******/SRR*******/SRR*****.sra
./

-T 表示不加密下载;

-i   下载密钥,软件自带;

-l 设置最大传输速度;

–user=string   用户名,NCBI的为anonftp,EBI的为era-fasp;

–host=string  
ftp的host名,NCBI的为ftp-private.ncbi.nlm.nih.gov;EBI的为fasp.sra.ebi.ac.uk;

–mode=string 选择模式,上传为 send,下载为 recv。

此外测序数据上传至NCBI也可用Aspera,见本人之前的博客NCBI-SRA数据上传流程

相关文章