GATK多线程加速怎么做,要点是什么
Admin 2022-08-03 群英技术资讯 897 次浏览
对于大数据样本可能会比较慢,因此可以按照染色体拆分后进行多线程并行计算。
下面是我写的一个python多线程脚本,仅供参考,拙劣之处敬请指正。
#!/usr/bin/python3 import _thread import os import threading import time muthreads=[] bam_file="a.mkdup.bam" out_file_prefix="flower" chr_list=["CHR01","CHR02","CHR03","CHR04","CHR05","CHR06","CHR07","CHR08","CHR09","CHR10","CHR11","CHR12","CHR13"] for chr in chr_list: threads_comonder_name= "gatk HaplotypeCaller --intervals " + chr +" -R /mnt/j/BSA/02-read-align/Tifrunner2.fasta -I " + bam_file + " -ERC GVCF -O "+ out_file_prefix +"-"+chr+".erc.g.vcf" muthreads.append(threads_comonder_name) exitFlag = 0 class myThread (threading.Thread): def __init__(self, threadID, name, counter, comander): threading.Thread.__init__(self) self.threadID = threadID self.name = name self.counter = counter self.comander = comander def run(self): print ("开始线程:" + self.name) print_time(self.name, self.counter, 5, self.comander) print ("退出线程:" + self.name) def print_time(threadName, delay, counter,comander): # while counter: if exitFlag: threadName.exit() time.sleep(delay) print(comander) os.system(comander)#调用操作系统命令行处理数据 # counter -= 1 # 创建新线程 threadlist=[] for i, threadsnu in enumerate(muthreads[0:11]): print(i) print(threadsnu) threadsnew=myThread(1, "Thread-" + str(i), 2, threadsnu) threadlist.append(threadsnew) # 开启新线程 for threads in threadlist: threads.start() for threads in threadlist: threads.join() print ("运行结束退出主线程")
多条染色体的同样本的vcf文件合并
# for i in {1..22} X Y ;do echo "-I final_chr$i.vcf" '\';done # for i in {10..19} {1..9} M X Y ;do echo "-I final_chr$i.vcf" '\';done module load java/1.8.0_91 GATK=/home/jianmingzeng/biosoft/GATK/gatk-4.0.3.0/gatk $GATK GatherVcfs \ -I final_chr1.vcf \ -I final_chr2.vcf \ -I final_chr3.vcf \ -I final_chr4.vcf \ -I final_chr5.vcf \ -I final_chr6.vcf \ -I final_chr7.vcf \ -I final_chr8.vcf \ -I final_chr9.vcf \ -I final_chr10.vcf \ -I final_chr11.vcf \ -I final_chr12.vcf \ -I final_chr13.vcf \ -I final_chr14.vcf \ -I final_chr15.vcf \ -I final_chr16.vcf \ -I final_chr17.vcf \ -I final_chr18.vcf \ -I final_chr19.vcf \ -I final_chr20.vcf \ -I final_chr21.vcf \ -I final_chr22.vcf \ -I final_chrX.vcf \ -I final_chrY.vcf \ -O merge.vcf
合并的时候需要注意,vcf文件的顺序跟每个vcf文件里面头文件顺序是相同的。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
一步步实现有趣的飞机塔防游戏,有兴趣了解一下吗?文中有非常详细的代码示例,对喜欢玩游戏的小伙伴们很有帮助哦,需要的朋友可以参考下
本文详细讲解了python爬虫之selenium模块,文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
这篇文章主要介绍了在pytorch中计算准确率,召回率和F1值的操作,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
在Python3中正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。下文有实例供大家参考,对大家了解操作过程或相关知识有一定的帮助,而且实用性强,希望这篇文章能帮助大家,下面我们一起来了解看看吧。
Python内置函数-filter()函数。filter() 函数用于过滤序列,过滤掉不符合条件的元素,返回一个迭代器对象,如果要转换为列表,可以使用 list() 来转换。 该接收两个参数,第一个为函数,第二个为序列,序列的每个元素作为参数传递给函数进行判,然后返回 True 或 False,最后将返回 True 的元素放到新列表中。
成为群英会员,开启智能安全云计算之旅
立即注册Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008