化学信息学的研究内容
1、化合物登记(compound registration)。这包括将每一个化合物的立体化学参数,相关光谱数据(如NMR)、纯度数据(如HPLC)、各种生物活性测定数据等各种相关数据动态组合在数据库中。2、构效关系的研究工具和技术。这包括应用各种软件建立各种构效关系模型,其中使用了各种化学计量学方法(如多元统计回归分析等)。构效关系模型就是关联用数值表征的分子结构与其生物活性间的相关性。传统的QSAR研究是通过自由能将各种独立变量联系起来,即相似性是通过简单的数值来度量的。但是,化学结构之间的相似性度量相对比较复杂,化学结构只有在一定描述的空间中才能被度量和比较。如何描述一个化学分子是相当活跃的研究领域,只有在一个正确有效的描述空间内才有可能客观度量分子之间的相似性和差异性,从而进行有目的的筛选,并得到一个理想的目标分子库。现在很多人在研究通过二维、三维甚至更高维的药效团指纹图谱来表征分子,它与传统的自由能表述完全不同,其效果更为直观,新的描述方法如特征树(feature tree)等也被广泛应用。3、虚拟数据库组装技术(virtual database assembly)。它通过计算化学方法组合各种基元化学分子结构和片段,虚拟合成大量的候选化合物,然后在这样一个虚拟化合物库中筛选目标药物分子。上述工作包括采用合适的描述因子和相应的算法进行计算库设计(computational library design)。值得指出,有效的计算库在分子设计中往往起关键作用。遗传算法已成为计算库设计的重要工具,它能对一个虚拟库中各个计算化学性质特性值进行优化,从而最优地接近目标。Crame等对库设计的背景和外延问题作了阐述,Drewry和Young对库设计的各种方法进行了全面的总结。一种基于已知活性片段(对于目标受体)的方法被应用在单体选择中。经验表明,库的设计应建立在产品空间的计算化学特性值基础上,而不是在单体空间中。这需要有效的化合物虚拟合成技术,包括:1.片段标记(fragment marking),2.合成反应模拟技术。合成化学家一般偏爱后一种,但在分子的各片段都已定义好的情况下,使用前者更加快速。杂交系统(hybrid system)也被用来进行库设计。这些方法都需要通过模型计算得到化合物的物理化学性质值。James F Blake[18]对药物的各种性能值,如吸附性、渗透性、水溶性等预测模型进行了评述。4.数据库挖掘技术(database mining)。这主要是从大量的候选类药分子中寻找出所需要的药物分子,一般通过亚结构(substructure)、2D或3D相似性度量、分子形状(shape)、框架(framework)、药效团等来进行搜索,或者根据受体和配体之间的三维结构进行药物三维空间筛选。挖掘技术的效果既依赖于对目标分子的认识,如分子三维结构、化学特性等;也依赖于挖掘工具,如计算速度等。从一个多维特征描述空间中选择一个子集作为代表集就是所谓分子的虚拟筛选。通过对数据集合的研究,Bayada等得出结论:Ward的二维指纹图谱对于随机选择有最大的改善;但在另一项研究中发现,分割的化学结构(partitioned chemical descriptor)描述空间适用于不同的子集筛选,解决了有关聚类的技术。Deborah K.等使用回归分类法(recursive partition)进行药物筛选,并将其运用到14 G-protein 双受体检验中。5、统计方法和技术。统计方法如主成分分析、因子分析等被广泛地用来进行分子描述因子(descriptor)的减维,从而可以更加简单有效地表述分子信息并降低计算的复杂程度。6.大型数据的可视化表达。在化学信息学的研究中需要对成千上万个分子的构效关系模型进行表达,若通过图表的方式用计算机程序自动地进行数据的过滤和表达有利于分析。
化学信息学的基本简介
化学信息学是一门应用信息学方法来解决化学问题的学科。20世纪中后期,伴随着计算机技术的发展,化学家开始意识到,多年来所积累的大量信息,只有通过计算机技术才能让科学界容易获得和处理,换言之,这些信息必须通过数据库的形式存在,才能为科学界所用。这一新领域出现以后,没有一个恰当的名称。活跃在这个领域的化学家总是说他们在“化学信息”领域工作。然而,因为这一名称难以将处理化学文献的工作和发展计算机方法来处理化学信息的研究分别开来。所以,一些化学家就称之为“计算机化学”,以强调采用计算机技术来处理化学信息工作的重要性。但是,这个名称容易与理论化学计算,即“计算化学”混淆。1973年,由NATO高级研究所夏季学校在荷兰Noordwijkerhout举办的一次研讨班,首次将在在不同化学领域工作,但都是采用计算机方法处理化学信息,或是用计算机技术从化学数据中获取知识的科学家集中在一起。这次研讨班的名称就定为“化学信息学的计算机表征与处理”。参加这次会议的科学家主要从事化学结构数据库,计算机辅助有机合成设计,光谱信息分析和化学计量学等方面的研究,或者开发分子模拟软件。研讨班期间,这些化学家意识到,一个新的研究领域已经形成,而且,它隐含在化学各分支之间。从那之后,应用于解决化学问题的计算机科学和信息学方法悄然进入了化学的各个领域。而“化学信息学”这一名词的出现还是最近的事情。以下是几个最早的定义:“应用信息技术和信息处理方法已成为药物发现过程中的一个很重要的部分。化学信息学实际上是一种信息源的混合体。它可将数据转换为信息,再由信息转换为知识,从而使我们在药物先导化合物的识别和组织过程的决策变得更有效。”——Brown Medicinal, Chemistry,1998,33,375-384。“化学信息学——一个老问题的新名词”——M.Hane,R.Green. Chemical Biology,1999,33,375-384。“化学信息学是一个广义性的名词,它将包含化学信息的设计,制造,组织,处理,检索,分析,传播,和使用。”——G.Paris (美国化学会 1999年8月会议)。