如需在网页中查看本邮件,请点击这里

newsletter banner

欢迎

Mascot搜索中,一些步骤受磁盘速度的限制,而另一些步骤受处理器速度的限制。 我们将帮助您了解这些具体的细节,以便您选择合适的硬件来运行Mascot。

在本月特色文献中,报告了相当部分的细胞表面抗原表位都是肽段剪接的结果,其所占的比例超出之前的预期,这对免疫疗法和疫苗的研究都会有潜在的影响。 如果您最近也有文章发表并且希望我们列举在下一期的Newsletter中,请发给我们 相关的PDF 或者URL.

本月Mascot技巧讨论了当序列数据库中的某些序列过长而出现警告提示时我们应该如何处理。

如果您有任何意见或问题,请随时 联系我们.

 

2016.11

Mascot 服务器硬件
特色文章
本月Mascot小技巧
 

如何充分利用您的Mascot Server硬件资源

为了为您的Mascot Server选择合适的硬件组件,了解搜索的不同阶段会是很有帮助的。整个过程的流程如下:

  1. 上传输入文件
  2. 谱图按多肽分子量进行排序
  3. 峰列表按块划分
  4. 搜索过程:先把数据库序列在电脑上模拟被酶解碎片化过程,然后把计算出的分子量与实验得到的值做比较并计算打分值。
  5. 结果被整理合并到结果文件中
  6. 如有需要,运行Percolator以优化鉴定结果
  7. 创建高速缓存文件以提高结果报告的性能

在计算分子量值和打分时,搜索工作的主要部分是高度并行的,因此处理过程可以被分成在多个CPU的独立核上运行的多个独立的任务。由于性能的瓶颈通常是CPU,因此在搜索中使用的CPU核的数量增加一倍大约能使该步骤所需的时间减少一半。

其他阶段,比如峰列表的排序和拆分,结果文件的写入和Percolator的后处理 - 目前是单线程进程,因此通过使用更多的CPU内核并不能起到加速作用。

点这里(Go here) 阅读更多关于内存的要求以及是否需要把某些文件放在固态硬盘上的信息。

processor graphic

使用Mascot的特色文章介绍

在这里我们重点介绍了一篇近期发表的有趣并且重要的文章,它用Mascot进行蛋白质鉴定,定量或表征。如果您想要您的文章也在这里重点推荐,请发给我们 一个PDF或URL.

 

A large fraction of HLA class I ligands are proteasome-generated spliced peptides

Juliane Liepe, Fabio Marino, John Sidney, Anita Jeko, Daniel E. Bunting, Alessandro Sette, Peter M. Kloetzel, Michael P. H. Stumpf, Albert J. R. Heck, Michele Mishto

Science 21 Oct 2016: Vol. 354, pp. 354-358

为了识别病原体和其它致病源,细胞表面存在着通过免疫系统靶向的蛋白质抗原表位片段。这些表位通过蛋白酶体的作用产生,并存在于人白细胞抗原1类(HLA-1)系统中。 蛋白酶体也可以切割蛋白质并将不同片段粘贴在一起,形成跟原始蛋白质序列不一样的多肽。这个过程称为蛋白酶体催化的肽剪接。而这种过程一般认为是相当罕见的。

在这项研究中,作者开发了一种由二维肽初步分割,随后用杂交肽碎片法(电子转移高能碰撞解离)进行肽鉴定的策略。 数据库搜索采用了经过适当调整的 target-decoy的方法,并用了一个很大的全蛋白质组人类剪接肽数据库。

该方法鉴定出了长度为9至12个残基的6592个未剪接的肽和3417个剪接的肽,占鉴定的抗原肽总量的34%。 相反,仅针对标准Swissprot人类蛋白质组数据库搜索这些数据集,错误地将655个抗原肽鉴定为非剪接肽,而没有考虑剪接的肽。

Thumbnail from featured publication

本月Mascot应用小技巧

假设您已向Mascot添加了一个新数据库; 它已经通过测试并可用于搜索。 当您第一次搜索它时,在报告顶部会出现一个红色警告:"3 sequences ignored because length greater than maximum configured" 。

如果您看得仔细一点,您会注意到在数据库状态中有一个新文件的Compression warnings链接。 按照此链接您将看到在Fasta文件压缩时记录的错误消息。 您还可以按统计链接查看有多少序列太长和最大长度。

一种处理这种情况的方法是使用Configuration Editor在mascot.dat的选项部分增加MaxSequenceLen的值。 在大多数情况下,这样做是非常错误的事情。 MaxSequenceLen的默认值为50,000残基,比NCBI nr中最长的条目长得多。 事实上,你不太可能看到蛋白质数据库的这个警告。它一般在你试图添加含有组装的基因组或一些染色体的核酸数据库时才发生。 这些可以是非常长的—— 人类1号染色体是250 Mb。 从结果报告的角度来看,像将这样长的序列作为单个条目进行搜索是没有意义的。

它也浪费内存,因为Mascot必须在内存中创建表,它与数据库中最长的条目的大小成比例。 将MaxSequenceLen设置为一个不切实际的高值是倒是能保证让你的搜索任务崩溃并出现"Out of memory"的警告。 因此,比较好的方式是将非常长的序列分成有叠合的一系列块会更好,正如以下链接的例子所描述的一样, Genome Database Example.

Statistics file

关于 Matrix Science

Matrix Science 为蛋白组学的研究人员以及科学家提供生物信息分析工具,帮助他们更快速,更可信的鉴定和定量蛋白。Mascot 软件全线支持来自Sciex, Agilent, Bruker, Shimadzu, Thermo Scientific 以及 Waters质谱仪生成的质谱数据。

请联系康昱盛以获取更多的信息。

 

Matrix Science logo

Matrix Science Ltd, 64 Baker Street, London W1U 7GB, UK
T +44 (0)20 7486 1050  F +44 (0)20 7224 1344  E info@matrixscience.com
 

View in a web browser Forward to a colleague Unsubscribe