CN105793858B

CN105793858B - 用于基因组排序和大分子分析的计算工具

Info

Publication number: CN105793858B
Application number: CN201480066317.3A
Authority: CN
Inventors: 罗杰·密德茂尔
Original assignee: Individual
Current assignee: Individual
Priority date: 2013-12-03
Filing date: 2014-12-01
Publication date: 2018-09-21
Anticipated expiration: 2034-12-01
Also published as: EP3077941A4; CN105793858A; EP3077941A1; WO2015084704A1

Abstract

一种四值并行仿真，能够实现一种计算机***，该计算机***能够结合在DNA分析和大分子结晶体上的计算机集中技术的混合体。公开的***和方法帮助药物的设计、制药研究、从基因角度上改变的生物体以及对基因序列的检测以用于基因治疗。

Description

用于基因组排序和大分子分析的计算工具

本申请是对于在2013年12月3日提交的美国专利申请14/095,416的部分延续，通过参考在此合并美国专利申请14/095,416的内容。

专利权和商标公告

本申请包括从属于或者可能从属于专利权和/或商标保护的物质。由于本专利公开出现在专利和商标局的文件或记录中，所以专利权和商标的拥有者对于通过任何本专利的公开复制的复制品没有异议，但是另一方面保留所有的专利权和商标权。

技术领域

本发明总体上涉及用于基因组排序和大分子分析的计算工具。

背景技术

在现有技术中，用于基因组排序和分析的各种计算工具和机制已被公开。但是，现有技术缺乏当前公开的实施例的效率。

发明内容

本发明通过提出降低传统上与计算机架构中的数据的测试、操作和分析关联的时间和计算开销的方法、***和方式的不明显且独特的组合、配置和使用，克服了现有技术中的不足。

公开的实施例通过提出允许将语法信息和语义信息两者均编码到语义网络中的与语义节点关联的两比特矢量符号的符号，克服了现有技术中的不足。公开的实施例还通过对每个特征在递归的谓词分析中假设的属性进行编码来克服现有技术中的不足。

附图说明

图1描绘了公开的逻辑；

图2描绘了机器实施；

图3描绘了语义网络的图解表示；

图4描绘了对于数组内的特定索引的属性的分配；

图5描绘了条理化数据结构的公开的通用布局；

图6描绘了复杂类比的计算；

图7是图6的继续；

图8是图6的继续；

图9描述了可在公开的***内计算的若干属性。

基于结合关联的附图阅读下面的详细描述，本发明的这些方面和其他方面将变得明显。

具体实施方式

下面的详细描述指向本发明的一些特定实施例。然而，本发明可按照如通过权利要求和它们的等同物限定和覆盖的多种不同方式来实施。在该描述中，对附图做出参照，其中，贯穿整个附图，相同的部件被指定同样的标号。

除非在该说明书或权利要求书中另外提及，否则在说明书和权利要求书中使用的所有术语具有本领域人员所认为的通常归于这些术语的含义。

除非上下文明确地另外要求，贯穿说明书和权利要求书，词“包括”、“包含”以及类似的词将被按照包容性的意思被解释，而不是排除性或穷尽的意思；也就是说，按照“包括但不限于”的意思进行解释。使用单数或复数数量的词还分别包括多数或单数的数量。此外，当词“在此”、“以上”、“以下”以及类似含义的词在该说明书中被使用时，这些词应指的是作为整体的本申请，而不是本申请的任何特定部分。

本发明的实施例的上面详细的描述不意在是穷尽的或者将本发明限制为上面公开的明确形式。虽然本发明的特定实施例或示例由于示意性目的在上面被详细地描述，但是如相关领域的技术人员将认识到的，在本发明的范围内的各种等同的修改是可行的。例如，虽然步骤按照给定顺序被呈现，但是可选的实施例可执行具有按照不同顺序的步骤的例程。在此提供的本发明的教导可被应用于其他***，而不仅仅是在此描述的***。在此描述的各种实施例可被组合以提供其他实施例。根据具体实施方式可对本发明做出这些和其他改变。

所有上述参考和美国专利以及申请通过引用在此被合并。如果需要，则本发明的各个方面可被修改，以采用上面描述的各种专利和申请的***、功能和概念来提供本发明的其他进一步的实施例。

参考标号

100有时包含机器可读指令的非暂时性机器可读介质

200通用或专用处理器

300存储器，有时是非易失性存储器

410一个或更多个语义网络的数据库

420矢量数组的数据库

430逻辑连接词的数据库

440语法词汇结构实施的数据库

450***报告的数据库

500语义网络

510对象

520关系

600运行栈和堆

700***时钟

800自上而下/自下而上语法分析器

900推定的原始公式的哈希表

910函子(functor)和项的哈希表

920立即安全通过的属性

921通用图标语法分析器

922在时间t的解状态

923在时间t+1的解状态

930词汇(分类)的哈希表

940符号表

1000描绘了使用四值逻辑且重现Sheldon Klein的论文“Culture,Mysticism andSocial Structure and the Calculation of Behavior”(记载在1981年12月在计算机科学技术报告#462中)的现有技术的类推示例

1010描绘了1000的继续示例

1020描绘了1000的继续示例

1030描绘了1010的伴随绘图类比

1040描绘了1010的伴随绘图类比

1100描绘了从1000继续的类比计算

1110描绘了从1000继续的类比计算

1120描绘了从1000继续的类比计算

1130描绘了从1000继续的绘图计算

1140描绘了从1000继续的绘图计算

1200描绘了从1000继续的类比计算

1210描绘了从1000继续的类比计算

1220描绘了从1000继续的绘图计算

1230描绘了从1000继续的绘图计算

1240描绘了表示已被计算的复杂类比的问号

1300描绘了键角弯曲(bond angle bending)

1310描绘了键伸展(bond stretch)

1320描绘了扭曲应变(torsional strain)

1340描绘了DNA

参照图1，描述了针对四值逻辑的基本二进制运算符和逻辑非(忽略针对逻辑非的单调论证)的示意图。这些运算符被用于证明逻辑类的完备性。这些逻辑可通过各种不同论证推导出。从真值的布尔型分组进行考虑，或者从集合理论和递归定义进行考虑，将真值表预先排列成格子结构。所有这些被构造为以经典逻辑的形式来保存一些主要公理。通过对递归值进行建模，在语义网络中明确地假设真值使得条件的测试和变量的量化简化。对于***的未定义值、成长的默认值允许对于网络的动态良性编码，逻辑属性可归属于许多Kleene逻辑。第四属性允许对变量进行适当的量化和约束，以用于消除针对计算中的随后步骤的更新真值的影响。这也为用于将马尔科夫(Markov)过程建模成逻辑的判定程序引入推定可接受的“排中律(terium non datur)”提供了可能性。

通过将具有特定比特的属性编码到比特矢量，线性缩放可被保持。该***在创建符号表、特征测试以及辅助扩展堆编译器实施的编译器设计方面有别于现有技术。

在图1的第一栏中，逻辑非(not)符号被示出为在图1的第二栏中，与(AND)运算符被示出为^Λ，在图1的第三栏中，或(OR)运算符被示出为∨。第一栏示出了应用非运算符之前的值。例如，在第一栏的第一行，值F在应用非运算符之前被示出，且T被示出为结果。

在第二栏中，与运算符从第一列取一个值，从第一行取一个值，在列的值与行的值相交处示出逻辑运算符的结果。在第三栏中，或运算符按照如在第二栏中类似的方式被应用。例如，在第三栏中，示出了在第一行选择最后一个元素D，在第一列选择第二个元素F，结果是值D。

参照图2，使用机器可读、非暂时性介质100示出了机器实施，介质100具有被发送到通用或专用处理器200的机器可读指令。处理器200可与存储器300、多个数据库以及其他组件(诸如，网络、用户接口和其他实施)进行通信。多个数据库可包括一个或更多个语义网络的数据库410(诸如图3的网络***)、矢量数组的数据库420(矢量数组可与每个语义节点或其他网络组件关联)、逻辑连接词的数据库430(诸如，图1的连接词)、语法词汇结构实施的数据库440(诸如，图2的数据库440)以及其他公开的组件的数据库。图5还描绘了***时钟700、自上而下/自下而上语法分析器800以及运行时间栈和堆600。

参照图3，利用对象510和关系520来示出语义网络500的图解表示，其中，所有对象和关系是存储器或数据库中的节点。

图4描绘了与存储器中的语义节点关联的两比特矢量数组的图解表示。图4还示出了跨越两个数组分配真值，其中，X为***数组中的特定索引。图中字的大小是计算机架构中的字大小限制的结果。这引起针对数组的实现的组块因素。

图5是描绘了数据结构的通用布局的简图，所有的数据结构被假设为以推定形式被包含在随机访问存储器或RAM的相同空间中，以强调公开的***诊断。930是用于强制执行分类验证的词汇的哈希表。910是用于函子和项的哈希表。900是用于公式的哈希表。920是用于图表解析器和计算的解状态的共享存储器，计算的解状态控制仿真中什么被立即安全保存。940描述了符号，符号具有用于将其任务的属性映射到比特矢量的表。

图5强调了在推定分析中的重要的逻辑分区，该逻辑分区对于***的通常的***分析以及如何使用计算机资源以用于特定环境下的特定算法的***分析是重要的。函子和项是来自Kleene的“The Foundations Of Intuitionistic Mathematics”，且等价于使用Klein的论文中的对象和关系。通过将Klein的语义三元组限制为其二元子集，可在***中对由Kleene的原始递归函数构成的公式进行建模。立即安全性的概念通过图表语法分析器及其针对仿真的解状态的控制来进行考虑。当语法分析器将黑板从时间T切换到时间T+1时，该***可被视为允许定时存储器访问(即，从存储器到关于解状态的进程(黑板)的大量连续写入)。由于该写入可被给予到分布式***(即，网络)，且可被视为对于在用于***的分析的信息理论上的传输的定时，所以是伴随***时钟的语法分析器的定时允许确定所有***资源的使用。箭头和盒子表示特定条目之间的联系(指针)，特定条目在哈希表的公式(二元和三元组)、项/公式(对象/关系)以及词汇(分类)之间相关。

Kleene公式化非常严格，可允许放松逻辑标准以包括通用递归公式(允许Klein的最完整的三元组语义表示法)以及通过Klein的理论中的词汇进行考虑的分类的概念。将Kleene的lambda可定义性和特定可实现性的概念等价为算法理论中的马尔科夫算法的概念将使得对于该***有更加通俗的表示。图中需要的所有就是利用马尔科夫音节替换词汇，利用马尔科夫字替换对象/关系，利用普通算法的马尔科夫概念替换公式。其通用改写***随后可被假定其在一般模式匹配和在DNA序列中的字符串或更一般地字符串的替换中的能力。

图6是对Klein教授给出的三值类推示例的再生成的示图。它将真值映射到[1,1]，并使用用于类比关系的强等价运算符。异或是优选的，从而不会使***机器相关，并且对于在主编程语言中缺少强等价运算符的情况，强等价的使用被示出，这是由于逻辑学家偏好该运算符，且可将四值强等价运算符与其两值对应部分进行互换，并在回顾逻辑文献时使用传统等价的概念。

图6中的元数学值将“真(True)”映射到[1,1]，将“假(False)”映射到[0,1]，将“未定义(Undefined)”映射到[0,0]，将“已定义(Defined)”映射到[1,0]。

图7是图6的继续。

图8是图6的继续。

图9是能够在***中进行建模的一些大分子属性的示图。1310是键伸展的示图。1300是角弯曲的示图。1320是转动伸展或扭曲伸展的示图。1340描述了DNA分子。

这些是在建模中使用的一些通用分子力学属性，这些属性可利用量子力学进行互换，但计算时间将由于该转换远离经典力学而显著地增加。

根据上面的详细描述可对本发明做出这些和其他改变。一般而言，在权利要求中使用的术语不应被解释为将本发明限制为说明书中公开的特定实施例，除非上面的详细描述明确地限定该术语。因此，本发明的实际范围包含公开的实施例以及实践或实现权利要求下的发明的所有等同方式。

虽然下面以特定权利要求形式来呈现本发明的一些方面，但是本发明注重任何数量的权利要求形式的发明的各个方面。

公开的实施例包括下面的项：

第一项：用于基因组排序和分析的语义网络的机器实现的方法，所述方法包括：

a)使用包括(F、T、U、D)的符号来表示被映射到二矢量动态数组的假、真、未定义和已定义的值；这些值还被映射到所述二矢量动态数组中的索引且被存储为语义网络内的节点，以用于表示输入的基因组序列；

b)将F、T、U、D限定为集合理论，其中，{}为“未定义”，{T}为“真”，{F}为“假”，{T,F}为“已定义”，这些值被解释为属性{P}为“真”，为“假”，{}为“未定义”，{P,}为“已定义”，这些属性是用于在谓词积分中针对连续递归步骤测试条件和量化变量的属性。

c)忽略单调论证，利用下面的二进制连接词，以否定形式来定义逻辑，逻辑与(^Λ)、非逻辑或(∨)连接词被用于证明逻辑的完备性，如下所示：

是T

是F

是D

是U；

d)针对连接词^Λ

^ΛF T U D

F F F F F

T F T U D

U F U U F

D F D F D；

e)针对连接词∨

∨F T U D

F F T U D

T T T T T

U U T U T

D D T T D；

f)通过将语法信息和语义信息线性编码到语义网络来使短期存储器最优化，并使长期存储器最大化；

g)在并行环境下，使短期存储器最优化以使长期存储器最大化变为最优化不同知识源(进程)之间的通信和存储；

h)在仿真中使用已定义和未定义来帮助分离资产类别。

第一项的方法还包括使用对与语义网络内的节点关联的短语结构改写规则的运用以用于改写规则的测试和通过。

第二项的方法实现了能够对语法进行多元语法解析的自上而下、自下而上的语法分析器。

第三项的方法使用***时钟、运行时间栈和堆、处理器、包含在非暂时性介质中的机器可读指令和改写规则的数据库、语义网络的数据库以及语法和语义信息的数据库。

第四项的方法实现能够对语法进行多元语法解析的自上而下、自下而上的语法分析器，以提供用于对匹配DNA序列的模式进行建模的语法模式匹配能力。

第五项的方法传统实现在蒙特卡罗仿真中对DNA进行动态建模，以用于整个基因组序列。

第五项的方法使用专用处理器。

第八项：用于大分子分析的语义网络的机器实现的方法，所述方法包括：

a)使用包括(F、T、U、D)的符号来表示被映射到二矢量动态数组的“假”、“真”、“未定义”和“已定义”的值；这些值还被映射到所述二矢量动态数组中的索引且被存储为语义网络内的节点，以用于表示输入的大分子结构；

b)将F、T、U、D限定为集合理论，诸如，{}为“未定义”，{T}为“真”，{F}为“假”，{}为“未定义”，{T,F}为“已定义”，这些值被解释为属性{P}为“真”，为“假”，{}为“未定义”，{P,}为“已定义”，这些属性是用于在谓词积分中针对连续递归步骤测试条件和量化变量的属性；

是T

是F

是D

是U；

d)针对连接词^Λ

^ΛF T U D

F F F F F

T F T U D

U F U U F

D F D F D；

e)针对连接词∨

∨F T U D

F F T U D

T T T T T

U U T U T

D D T T D；

h)在仿真中使用“已定义”和“未定义”来帮助分离基因类型。

第九项：用于基因序列和大分子结构的混合建模以用于对键锁***和诱导契合***中的化学探索的***，该***包括：

a)存储在非易失性计算机可读介质上的机器可读指令、中央处理器、运行时间栈和堆、语义网络、自上而下/自下而上语法分析器、***时钟、带有历史经济信息的数据库；

b)***使用包括(F、T、U、D)的布尔型编码来表示被映射到二矢量动态数组中的“假”、“真”、“未定义”和“已定义”的值；这些值还被映射到所述二矢量动态数组中的索引并且与语义网络中的节点关联；

c)将{F、T、U、D}限定为集合理论，诸如，{}为“未定义”，{T}为“真”，{F}为“假”，{T,F}为“已定义”，这些值被解释为属性{P}为“真”，为“假”，{}为“未定义”，{P,}为“已定义”，这些属性是用于在谓词积分中的条件测试和变量量化的属性。

d)***利用下面的二进制连接词(逻辑与(^Λ)、非逻辑或(∨)连接词)以否定形式来定义逻辑，所述二进制连接词被用于证明逻辑的完备性：

是T

是F

是D

是U；

e)针对连接词^Λ

^ΛF T U D

F F F F F

T F T U D

U F U U F

D F D F D；

f)针对连接词∨

∨F T U D

F F T U D

T T T T T

U U T U T

D D T T D；

g)***通过将信息线性编码到语义网络来使短期存储器最优化，并使长期存储器最大化；

h)在并行环境下，***集成存储器以最优化不同知识数据库之间的通信和存储。

第十项：第九项的***还包括使用对与语义网络内的节点关联的短语结构改写规则的运用以用于改写规则的测试和通过，***的字的大小在理论时间O(C)中给条件测试强加组块因素。

第十一项：第九项的***还包括矢量数组的数据库(每个数组与每个语义节点关联)、语义网络的数据和语法短语结构实施的数据库以及逻辑连接词数据库。

第十二项：第九项的***实现能够对语法进行多元语法解析的自上而下、自下而上的语法分析器，以对搜索空间中的统计总和的增长进行有效建模。

第十三项：第九项的***被用于利用DNA的物理属性在蒙特卡罗仿真中对DNA进行动态大分子建模。

Claims

1.一种用于基因组排序和分析的语义网络的机器可实现的方法，所述方法包括：

a)使用包括F、T、U和D的符号来表示被映射到二矢量动态数组的“假”、“真”、“未定义”和“已定义”的值，其中，F表示被映射到二矢量动态数组的“假”的值，T表示被映射到二矢量动态数组的“真”的值，U表示被映射到二矢量动态数组的“未定义”的值，D表示被映射到二矢量动态数组的“已定义”的值；所述值还被映射到所述二矢量动态数组中的索引且被存储为语义网络内的节点，以用于表示输入的基因组序列；

b)将F、T、U和D用集合理论限定，其中，{}为“未定义”，{T}为“真”，{F}为“假”，{T,F}为“已定义”，这些值被解释为：属性{P}为“真”，属性为“假”，属性{}为“未定义”，属性为“已定义”，这些属性是用于在谓词积分中针对连续递归步骤测试条件和量化变量的属性；

c)忽略单调论证，利用下面的二进制连接词，以否定形式来定义逻辑，连接词逻辑与^Λ、逻辑非逻辑或∨被用于证明逻辑的完备性，如下所示：

是T

是F

是D

是U；

d)针对连接词^Λ

其中，第一行的值和第一列的值是进行逻辑与运算之前的值，第一行的第i个值与第一列的第j个值进行逻辑与运算得到第i行第j列的值，其中，2≤i≤5，2≤j≤5；

e)针对连接词∨

其中，第一行的值和第一列的值是进行逻辑或运算之前的值，第一行的第i个值与第一列的第j个值进行逻辑或运算得到第i行第j列的值，其中，2≤i≤5，2≤j≤5；

g)在并行环境下，使短期存储器最优化以使长期存储器最大化的处理变为使不同知识源之间的通信和存储最优化，其中，知识源是进程；

h)在仿真中使用“已定义”和“未定义”来帮助分离资产类别。

2.如权利要求1所述的方法，所述方法还包括：使用与语义网络内的节点关联的短语结构改写规则，以用于改写规则的测试和通过。

3.如权利要求2所述的方法，所述方法实现了能够对语法进行多元语法解析的自上而下/自下而上的语法分析器。

4.如权利要求3所述的方法，其中，所述方法使用***时钟、运行时间栈和堆、处理器、包含在非暂时性介质中的机器可读指令和改写规则的数据库、语义网络的数据库以及语法和语义信息的数据库。

5.如权利要求4所述的方法，其中，所述方法实现了能够对语法进行多元语法解析的自上而下/自下而上的语法分析器，以提供用于对匹配DNA序列的模式进行建模的语法模式匹配能力。

6.如权利要求5所述的方法，其中，所述方法实现在蒙特卡罗仿真中对DNA进行动态建模，以用于整个基因组序列。

7.如权利要求5所述的方法，其中，所述方法使用专用处理器。

8.一种用于大分子分析的语义网络的机器可实现的方法，所述方法包括：

a)使用包括F、T、U和D的符号来表示被映射到二矢量动态数组的“假”、“真”、“未定义”和“已定义”的值，其中，F表示被映射到二矢量动态数组的“假”的值，T表示被映射到二矢量动态数组的“真”的值，U表示被映射到二矢量动态数组的“未定义”的值，D表示被映射到二矢量动态数组的“已定义”的值；这些值还被映射到所述二矢量动态数组中的索引且被存储为语义网络内的节点，以用于表示输入的大分子结构；

b)将F、T、U和D用集合理论限定，其中，{}为“未定义”，{T}为“真”，{F}为“假”，{}为“未定义”，{T,F}为“已定义”，这些值被解释为：属性{P}为“真”，为“假”，{}为“未定义”，为“已定义”，这些属性是用于在谓词积分中针对连续递归步骤测试条件和量化变量的属性；

是T

是F

是D

是U；

d)针对连接词^Λ

e)针对连接词∨

h)在仿真中使用“已定义”和“未定义”来帮助分离基因类型和大分子结构。

9.一种用于基因序列和大分子结构的混合建模以用于对键锁***和诱导契合***中的化学探索的***，所述***包括：

a)存储在非易失性计算机可读介质上的机器可读指令、中央处理器、运行时间栈和堆、语义网络、自上而下/自下而上语法分析器、***时钟和带有历史经济信息的数据库；

b)***使用包括F、T、U和D的布尔型编码来表示被映射到二矢量动态数组中的“假”、“真”、“未定义”和“已定义”的值，其中，F表示被映射到二矢量动态数组中的“假”的值，T表示被映射到二矢量动态数组中的“真”的值，U表示被映射到二矢量动态数组中的“未定义”的值，D表示被映射到二矢量动态数组中的“已定义”的值；这些值还被映射到所述二矢量动态数组中的索引并且与语义网络中的节点关联；

c)将F、T、U和D用集合理论限定，其中，{}为“未定义”，{T}为“真”，{F}为“假”，{T,F}为“已定义”，这些值被解释为：属性{P}为“真”，为“假”，{}为“未定义”，为“已定义”，这些属性是用于在谓词积分中的条件测试和变量量化的属性。

d)***利用下面的二进制连接词，以否定来定义逻辑，所述二进制连接词是连接词逻辑与^Λ、逻辑非逻辑或∨，被用于证明逻辑的完备性：

是T

是F

是D

是U；

e)针对连接词^Λ

f)针对连接词∨

h)在并行环境下，***集成存储器以使不同知识数据库之间的通信和存储最优化。

10.如权利要求9所述的***，所述***还包括使用与语义网络内的节点关联的短语结构改写规则，以用于改写规则的测试和通过，***的字大小在理论时间O(C)中将组块因素强加到条件测试。

11.如权利要求9所述的***，所述***还包括矢量数组的数据库、语义网络的数据和语法短语结构实施的数据库以及逻辑连接词的数据库，其中，每个矢量数组与每个语义节点关联。

12.如权利要求9所述的***，其中，所述***实现了能够对语法进行多元语法解析的自上而下/自下而上的语法分析器，以对搜索空间中的统计总和的增长进行有效建模。

13.如权利要求9所述的***，其中，所述***被用于利用DNA的物理属性在蒙特卡罗仿真中对DNA进行动态大分子建模。