标题:读文件 正则表达式的使用
只看楼主
uestcwcq
Rank: 1
等 级:新手上路
帖 子:1
专家分:0
注 册:2010-6-10
 问题点数:0 回复次数:1 
读文件 正则表达式的使用
现有个ffn格式文件,大致如下:
>ref|NC_000913.2|:190-255 thr operon leader peptide [Escherichia coli str. K-12 substr. MG1655]
ATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGA
>ref|NC_000913.2|:337-2799 fused aspartokinase I and homoserine dehydrogenase I [Escherichia coli str. K-12 substr. MG1655]
ATGCGAGTGTTGAAGTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTC
TGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCT
GGTGGCGATGATTGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATT
TTTGCCGAACTTTTGACGGGACTCGCCGCCGCCCAGCCGGGGTTCCCGCTGGCGCAATTGAAAACTTTCG
TCGATCAGGAATTTGCCCAAATAAAACATGTCCTGCATGGCATTAGTTTGTTGGGGCAGTGCCCGGATAG


我想读取该文件,只需得到着色区域的内容,将碱基存取到二维数组里面,方便后面的统计工作,希望大家能帮个忙,本人对python不是特熟悉
搜索更多相关主题的帖子: 正则表达式 文件 
2010-06-10 13:15
a515200
Rank: 2
等 级:论坛游民
威 望:1
帖 子:18
专家分:94
注 册:2010-7-11
得分:0 
我把几个月前的贴给拉出来了

import re
for i in re.findall('(\d+-\d+)',string): print i
else:
    for i in re.findall('([a-zA-z]{20,})',string): print i


[ 本帖最后由 a515200 于 2010-9-22 02:38 编辑 ]
2010-09-12 23:37



参与讨论请移步原网站贴子:https://bbs.bccn.net/thread-309854-1-1.html




关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.112760 second(s), 8 queries.
Copyright©2004-2025, BCCN.NET, All Rights Reserved