数据控|突破是我们的每一步datahold.cn

获得性遗传
生物想要延续，就必须同时具备遗传和变异两个条件。获得性遗传，就是在后天的环境中习得的性状，并能遗传给后代。
获得性遗传是指个体在其生命过程中因环境或习惯等外部因素而取得的特征，并将这些特征传递给后代的假说。
获得性遗传的典型例子是长颈鹿的脖子，拉马克认为，长颈鹿的祖先是短脖子，随着环境中竞争压力的增大，它们逐渐伸长脖子以获取更高位置的食物，经过多代的传递，终于形成了现在的长颈鹿。然而，现在的遗传学发现这种说法并不可靠。
魏斯曼是一位德国生物学家，他在19世纪进行了这个著名的实验，以反驳拉马克的获得性遗传理论。魏斯曼将几代老鼠的尾巴剪掉，并观察这些老鼠的后代是否会因为祖先失去尾巴而天生短尾或无尾。他的实验结果表明，即使经过多代的剪尾操作，老鼠的后代仍然生下正常的长尾巴，这为遗传不受后天获得性状影响提供了有力证据。
2024年8月8日
为什么全基因组选择在植物中预测比动物中难？
原因之一是，动物的建模群体规模通常超过1000，而在植物中，1000个个体组成的建模群体在实际育种过程中可遇而不可求。另一个重要的原因是，植物比动物有更显著的基因型与环境互作效应，会对预测造成极大的干扰。
One of the reasons is that the training population size of animals usually exceeds 1000, while in plants, a training population composed of 1000 individuals can be difficult in the actual breeding process. Another important reason is that plants have a more significant genotype environment interaction (GEI) effect than animals, which can cause significant interference in predictions.
2024年6月14日
甲基化测序
甲基化是一种重要的生物化学过程，涉及将甲基基团（-CH3）添加到分子上。这种修饰可以影响分子的功能和活性，并在许多生物过程中发挥关键作用，包括基因表达调控、DNA修复、细胞信号传导和蛋白质功能。在哺乳动物中，最常见的甲基化形式是5-甲基胞嘧啶，即甲基基团被添加到胞嘧啶的第5碳原子上。
甲基化测序一般有两种常见方法：
（1）TAPS方法；（2）重亚硫酸氢盐法。
第一种方法用TET酶，将甲基化的C碱基转换成
然后在吡啶硼烷的作用下转变成二氢尿嘧啶。
二氢尿嘧啶在PCR的过程中会被识别成T。这样，C就变成了T，通过测序，比较哪些C变成了T，则知道哪些被甲基化了。转化效率99%。
第二种方法是用亚硫酸氢盐处理，没有甲基化的的C会与亚硫酸氢根反应，并结合到6位。结合了亚硫酸氢根的非甲基化的C会脱氨基、脱亚硫酸氢根，形成U。根据测序，看C是否变成T来确定该位点是否被甲基化或羟甲基化。变化的是没有甲基化的位点，没有变化的是具有甲基化的位点。转化效率99%。
甲基化和羟甲基化的区分。使用高钌酸钾（KRuO₄）处理羟基化的C，可以生成甲酰化的C，在亚硫酸氢盐的作用下变成U。而甲基化的C不能被转化成U。转化效率94%左右。
需要注意的是，亚硫酸氢盐会引起DNA断裂，但是其使用的PCR循环数较少，不易引起PCR重复次数不同导致的文库不均一性。
当碱基非常平衡时，也就是A、T、C、G比例协调时，检测的准确性较高。然而，由于亚硫酸氢盐把C变成了T，会造成比例极不协调，测序准确性大幅降低。此时，通常在测序时加入基因组文库，以平衡碱基比例。
检测C的转化效率，用大肠杆菌生产出来的完全没有甲基化的λ噬菌体DNA做内参。也可以使用完全甲基化的CpG岛查看甲基化对亚硫酸氢盐的抵抗效应。
测得得结果需要与基因组DNA进行比对，但是，由于所有得C都变成了T，直接比对是不对不上的，需要将基因组DNA的C都变成T；同时，将反义链的G变成A，才能比对上。
2024年4月22日
亲子鉴定与SSR
短串联重复DNA（Short Tandem Repeat，STR），也叫做微卫星DNA（Microsatellite DNA），简单序列重复（Simple Sequence Repeats，SSR）。
一般，一个人的常染色体上的一个SSR位点，一个来自父亲，一个来自母亲。这样的位点多找几个，就会发现几乎是独一无二的特征。根据此特征，可以区分个体。
ABI公司GloBalFiler亲子鉴定试剂盒，共检测23个位点，理论上1.4×10²⁵个人当中，会有两个完全一样的SSR数据的人。当孩子的一半SSR位点与父亲的一半SSR位点能够对应上，则该判定为生物学父子。
如果是同卵双胞胎，SSR会完全一致，不能用该方法区分。
2024年4月21日
Nanopore测序
Nanopore测序的核心部件是纳米级的小孔，该小孔由蛋白质构成，称为”pore”。这个蛋白质插在电阻率很高的薄膜上，薄膜两侧浸入含有离子的水溶液当中。在薄膜两侧加上不同的电位，形成电位差，粒子就会穿过薄膜，向一个方向移动。蛋白上的小孔就会检测到电流。当DNA的单链通过小孔的时候，就会对离子的流动造成阻碍。不同的碱基对电流的影响不同，因此，可以根据电流的变化反推碱基是什么。
这个带有孔的蛋白，叫做”Reader”。用作Reader的蛋白，一般是天然形成穿膜孔的跨膜蛋白，再经过基因工程改造。
在测序时，需要用到DNA解旋酶解开DNA双螺旋，其中一条链通过跨膜蛋白。
该方案处理序列的速率非常快，第9代芯片，每秒可以处理250个碱基。10分钟可以测定150万碱基的整条单链。
这种测序仪的体积非常小，只有U盘大小。
存在问题：
1. 一些位置没有穿模蛋白，或蛋白不通。
2. 同一个位置有多个穿膜蛋白，互相干扰。
3. 电流过大造成膜损坏。
文库构建：
包括了1D和1D²两种文库。1D用于单链测序，1D²将两条链接上，然后依次测定。
由于膜具有一定的宽度，测定的电流变化实际上是5个碱基共同作用的结果，电流大小和变化由机器学习建模。1D有85%的准确率，1D²有90%的准确率。
2024年4月19日
蛋白质测序
Quantum-Si蛋白测序。
测序芯片如图，上面有200万个小孔，每个小孔是一个反应容器，检测反应就在这些小孔中发生。
测序步骤：
1. 用限制性蛋白酶切断蛋白，多肽溶液铺在芯片上，芯片的小孔中有能与羧基端结合的化学物质。理想状态下，有三分之一的小孔结合一条肽，另外三分之一的小孔中会结合多条多态，还有三分之一的小孔中没有结合到多肽。
2. 在反应体系中加入识别子（recognizer），识别子能够识别蛋白质N末端的一个或多个氨基酸残基酸残基蛋白。不同的识别子带有不同颜色的荧光染料。
3. 识别子与不同残疾结合的时间长短不同。PS610与F残基结合的时间为2.49s，与Y结合的时间为0.73s，与W结合的时间为0.31s。
4. 加入蛋白外切酶和识别子，边降解边测序。当遇到没有识别子能识别的残基时，就会有空档期。通过控制外切酶的浓度，保证30分钟左右切掉一个残基。
目前测得最长肽段是18个氨基酸。
残基距离N端越远，被切下来的时间越长。
脯氨酸不会被外切酶切割，识别信号会停留在脯氨酸之前的那个残疾。
2024年4月14日
mission bio 公司的单细胞 DNA 测序技术
有几百万种特征序列DNA标签链的微珠群，DNA单链分成3段，R1与测序文库的引物序列相一致，CS与扩增子尾端序列相一致，BC是barcode序列，用于标注微珠的身份信息。
1. 单个的细胞和蛋白酶先形成混合液。
2. 通过微流控的管路，形成油包水的乳浊液。
3. 油包水乳浊液有许多单个细胞和蛋白酶混合液的水相的小液滴，这些水相小液滴被油相隔开。每一个水项小液滴相当于一个独立的反应试管。
4. 蛋白酶会消化掉各种蛋白，包括缠绕在DNA上的组蛋白。这样就可以把DNA从染色质中释放出来。
5. 高温加热，使蛋白酶灭活。
6. 第二次微流控操作：把第一步产生的乳浊液，与带有DNA标签链的微珠、扩增引物组、PCR酶和底物等的溶液做第二次的乳浊液化。
7. 每个微珠都在一个水相小液滴中。所以这个微珠上的barcode链只会给当前小液滴中的DNA片段加上barcode序列。
8. 经过PCR反应，然后测序。
2024年4月12日
芯片的制作过程
生物用的芯片通常是硅做的薄片。玻璃板上会有无数的小帽子，是保护基团，用来防止DNA延长反应。这些保护基团对光敏感，当受到紫外照射时，这些保护集团从羟基上脱落，将羟基暴露出来。这个过程叫做光蚀。
用遮罩板挡在玻璃片上方，露出一部分方格。在紫外光的照射下，羟基露出，再加入A碱基，则A碱基与羟基连接，固定在玻璃片上，然后再加上保护基团。
再用另一块遮罩挡在玻璃板上方，同理可以将C固定上去。如此往复，可以把一串碱基固定在玻璃片上。最后，所有这些固定在这些玻璃片上的一串串碱基，就叫做探针。
玻璃板上可以分出许多区段，叫做Feature，每个Feature上有几百万相同探针。
2024年4月5日
Illumina的SNP芯片
这款芯片上主要布满了无数的小孔，每个小孔刚好可以放入一个微珠。每个微珠上都只含有同一种序列，但是数量很多，可能有几十万个。这上面的序列包含73个碱基，前23个序列是地址序列，剩下的50个是探针序列。地址序列用来识别探针序列，探针序列用于与目标DNA互补。
通过荧光标记的互补序列，可以通过荧光信号的位置和强度来识别每个小孔中微珠的Address序列，结果保存在.dmtp文件中，是后期分析中的重要。
Illumina使用的芯片扫描仪，只能识别2种颜色，而碱基有4种，需要一些巧妙的设计来区分。
二硝基苯用来修饰A或T，生物素修饰C和G。同时，红色荧光标记的二硝基苯抗体（与二硝基苯结合），绿色荧光标记的链霉亲和素（与生物素结合）。当探针连接到待测碱基前一个时，那么，就可以根据荧光的颜色区分出A:C、A:G、T:C、T:G了。
当探针序列覆盖到待测碱基上时，会出现两种情况：（1）覆盖的碱基互补，则连接下一个碱基，发光；（2）覆盖的碱基不互补，则不能再连上碱基，不发光。若检测A碱基的探针不发光，而检测T碱基的探针发光，则目标是一个A碱基的纯合子，反之则是T碱基的纯合子。若A和T碱基的探针都发光，则是A-T杂合子。
2024年4月4日
Primers-BLAST主要翻译
2024年4月2日

测序步骤：