程翔仔细盯着屏幕,屏幕上的碱基对,时不时标出一段带问号的替代符号,时不时又是一段红色缺失替代符,或疏或密,带问号的替代符是远在火星扫描时就已经无法确定的碱基对,而红色的缺失替代符,则是因为火星传输数据到地球数据发生了丢失,漫长的距离,光是信号抵达都需要好几分钟,要做到传输不丢数据,代价太大。
以现在的技术能力,也没办法做到高效的确认重发机制。有眼前这个时间戳表示有信号没收到已经非常的不错。
“不少错漏啊。”程翔感慨,不过也没办法,搞研究就是这样,哪有那么多理想的条件,“不过,还能有这么多信息,已经相当的不错了。”
“知足吧。”
毕竟,前期最重要的任务,就是初步确定这个盒子的价值,确切的说,是这盒子里基因的价值。
眼下的工程文件,左侧的活动面板上是一个树形结构,里面有十个子节点,表示着从1到10号盒子的基因测序矢量图文档,双击就可以打开对应的数据视图。这款工程软件,就是银河研究所制定的。
有程翔的把关,一众专业生物专业的专家教授不断给出意见,这款软件在使用上自然非常顺利可靠。
现在最重要的工作是确定这份基因的研究价值,而这种类似解谜般的工作向来都是难度最高的,那种感觉,跟只告诉你前面那座大山里有宝藏,但是不知道埋哪里,要你自己去找一样。
大海捞针莫过于此。
程翔没有立刻去查看基因的细节,想了想,“被发现的盒子,在内部一共有49个形状一致的小盒。”
“这也算是一个线索,既然如此。”
程翔想起了这款软件的一个功能,也是非常方便的功能,就是基因测序比对。
和常用的文档字符串比对一样,基因比对,则是将不同DNA测序文档进行比对,比对的则是碱基对的排列组合是否一致。不一致的,会逐个做下标记,比对完成后,按快捷键F3,可以快速依次查看每一个不同点。
“先比对下吧。”
“说不定就有了什么发现。”
探索过程最常见的就是试错,试错,自然也是从成本最低的开始,没有什么比这个更简单,想到这里,陈翔立刻将使用鼠标,选择全部文档,右键选择比对所有。进度条顿时展开,比对结果实时展示。
一份200MB的DNA图谱,足够存储16亿个碱基对信息。十份DNA测序图谱同时比对,这个运算量一般的电脑根本撑不住。不过,得益于软件需求是一群专业生物研究工作者提出,所以算法早就考虑到了生物科学的特殊性。比对按照增量的方式进行,即时开始,即时出具实时结果,又可以随时终止。
而且,更别提,实验室大楼内部早就配置一部超算,复杂计算可以委托超算进行处理。以超算每秒10的17次方每秒的运算速度,区区两百亿数据量的比对工作,根本不值得一提。
进度条几乎是眨眼即过,比对的结果应声而出。
程翔紧紧盯住屏幕,屏幕上,一份DNA碱基对比对视图已经绘制完成,十份视图全部重合的部分则打印白色,存在不同则会黄色标注,点击上去,还能看到各编号视图在该位置时基因的实际情况。
不过因为显示和内存的关系,显示器同一时间只能显示一个区间段的结果。
这个区间分段足足十几万个。
程翔直接翻看旁边的统计结果。
这一看,程翔立刻放下了嘴边的枸杞茶,神情变得格外凝重。
粗检验,重合率百分之四十五。
去除丢失片段,重合率百分之六十,
再去掉本身遗失的片段,重合率足足百分之九十九点九九九!
“重合率百分之九十九点九九九!”
程翔深深吸了口气,拿起旁边的内线电话,就拨通了候志洁的办公座机,电话响了两声就被接起。
“侯主任,你来一下,我想,我已经有了发现。”
电话那头的候志洁没有任何犹豫,她才刚刚把刚才收到的数据分发给各个小组,其他的都还没来得及做,程翔这边就已经有了突破,放在其他人身上她会怀疑对方的专业性,但是,放在程翔身上,对于程翔的快她早就习惯,二话不说挂断电话立刻赶了过来。
“程所长。”候志洁赶到。
“侯主任,你看,统计结果!”程翔让开位置,让候志洁观看比对结果,候志洁立刻俯身,统计结果非常明确。那五个九的的重合率,分外的显眼。
“五个九?如果再排除掉因为远程传输,信号在中途被扰乱的误差。”候志洁惊讶,本以为会非常艰巨的探索性任务,谁想到这么快就有了实质性的突破。
“没错,在现在的条件下,可以初步做一个假设,那就是,这四十九个盒子里的DNA序列是完全一致的。”程翔点点头说道。
“那就是说,这四十九个盒子的作用,就是一个备份容错的措施?”候志洁马上想到了一种可能性。
“应该是没错的。”程翔肯定了候志洁的说法。
“但是,为什么要这么做呢?”候志洁问道,一个问题得出结论,总能带出更多的问题,这是研究的复杂所在,也是其中的乐趣所在。
“十千克DNA,平摊到四十九个盒子,以五十进行估算的话,每个盒子的DNA重量为两百克。这两百克的基因到底会是什么?”确定了备份的猜想,缩小了研究的范围,加快了研究进程,但是,对于价值的真正评估,还是要确定基因里面保存的是什么。
“单个生物体的DNA不可能有那么大,人体单个细胞的DNA重量只有3皮克,我现在有个猜想,这些基因的含义可能并不是某种生物基因,而是利用DNA序列的特性,作为一种存储介质进行数据保存。”
“以碱基对序列存储二进制数据,生物学界在实验室早就获得了成功。所以,在理论上,这是绝对可行的。”
“如果真要给一个猜测的话,我现在更倾向于这些基因就是生物存储介质。”
“四十九个盒子,则是存储阵列。”程翔缓缓说道,“而这个大盒子的本质,就是个大硬盘!”
。