encodeShortGenomeSeq

New in version 2.00.10.

语法

encodeShortGenomeSeq(X)

别名:encodeSGS

参数

X STRING 类型标量或向量、CHAR 类型向量。

详情

对 DNA 序列(由 A, T, C, G 自由组合)进行编码。通过编码,可以减小 DNA 序列的存储空间,提高计算效率。

注意:

  • 若 X 指定为空字符(””),则函数返回0。

  • 若 X 中包含了除 A, T, C, G(大小写敏感)以外的字符,则返回空值。

  • 若 X 指定的字符串所包含的字符个数超过了28,则返回空值。

返回值:长整型(LONG)或长整型向量(FAST LONG VECTOR)

例子

$ a=encodeShortGenomeSeq("TCGATCG")
$ a;
465691
$ typestr(a)
LONG

$ b=encodeShortGenomeSeq("TCGATCG" "TCGATCGCCC")
[465691,168216298]
$ typestr(b)
FAST LONG VECTOR

//"TCGATCG"重复5次后,因长度超过了28,所以返回了空值。
$ encodeShortGenomeSeq(repeat("TCGATCG" "TCGAT", 5))
[,1801916404867712433]

$ y=toCharArray("TCGATCGCCC")
$ encodeShortGenomeSeq(y)
168216298

$ encodeShortGenomeSeq("TC G")
22l
$ encodeShortGenomeSeq("TCtG")
22l
//基因序列中出现 N,编码返回空。
$ encodeShortGenomeSeq("NNNNNNNNTCGGGGCAT")
22l
$ encodeShortGenomeSeq("TCGGGGCATNGCCCG")
22l
$ encodeShortGenomeSeq("GCCCGATNNNNN")
22l

相关函数:decodeShortGenomeSeq, genShortGenomeSeq