加快开发利用公共数据资源

  近日,《中共中央办公厅 国务院办公厅关于加快公共数据资源开发利用的意见》印发,聚焦破除公共数据流通使用的体制性障碍、机制性梗阻,统筹发展和安全,兼顾效率和公平,从扩大资源供给、规范授权运营、鼓励应用创新等方面提出了17项具体措施。

  “这些措施与《关于促进企业数据资源开发利用的意见》等政策一起相继出台实施,有利于培育一大批数据企业,促进数据产业加快发展。”国家数据局局长刘烈宏说。

  市场各方普遍认为,《意见》将大幅增加公共数据资源供给力度,激发全社会用数活力。《意见》明确数据服务企业可以通过合规方式参与公共数据的开发利用,有助于企业拓展业务范围,提供更加丰富的数据产品和服务;支持数据交易机构、数据流通交易平台互认互通,为数据服务企业提供了更加规范和便捷的数据交易环境。

  规范授权运营

  公共数据具有体量大、质量好、带动作用强等特点。如何让更多数据流动起来,《意见》围绕激发数据资源供给动力,对共享、开放、授权运营3种方式进行体系化部署。

  “授权运营是《意见》中提出的公共数据开发利用新模式,通过引入社会力量作为运营机构开展公共数据资源开发、产品经营和技术服务,帮助企业解决公共数据获取问题,为我国数据产业发展注入新动能。”清华大学公共管理学院教授孟庆国介绍,各部门、地区在前期授权运营探索中形成了整体、分领域、依场景等不同授权模式,有效提升了公共数据供给和开发效率,但也暴露出不少问题。

  因此,《意见》重点针对公共数据授权运营行为进行规范,通过合理制度安排回应市场关切、满足发展需求,正确处理好高质量发展和高水平安全关系,充分保障各方权益。中国信息通信研究院副院长魏亮建议,各级党政机关、企事业单位应公开遴选具备数据开发利用和安全保障能力的运营机构,设置合理运营期限,建立退出机制,并向社会公示授权运营情况。对纳入授权运营范围的公共数据资源实行登记制度,健全对公共数据资源流通使用过程的追溯、监督和管理机制。

  北京交通大学信息管理与理论国际研究中心特聘教授张向宏则认为,应加快建立符合公共数据要素特性的价格形成和收益分配机制。“公共数据开发是否具有可持续性,取决于授权运营制度能否兼顾经济性和公益性。通过市场化机制确保公共数据开发主体获得成本补偿和利润,充分调动其开发公共数据的积极性。用于公共治理、公益事业的公共数据产品和服务可有条件无偿使用。”

  收益分配方面,应按照“肯定数据资源的基础贡献、鼓励数据加工和运营的劳动价值、促进数据价值惠及全体人民”目标,推进机制模式探索,使运营收益最终投入造福全体人民的事业。

  孟庆国提出,要避免滥用行政权力或市场支配地位,约定运营机构获得的授权和业务范围,规定其不得直接或间接参与授权范围内已交付的公共数据产品和服务再开发等。保障市场公平,要以公开招标、邀请招标、谈判等方式选择运营机构,授权运营活动开展要做好公开公示。

  鼓励应用创新

  释放公共数据价值关键在于找到可落地的应用场景。目前,公共数据在政务、金融、交通等领域的价值已经得到一定体现。例如,北京市对经营主体的登记、纳税、不动产、社保等高价值数据进行挖掘分析,为金融机构普惠金融业务提供支持。在交通领域,实时公交、航旅纵横等常用的产品和服务,也是基于公共数据开发利用产生的。

  中国联通持续挖掘公共数据价值,为城市管理和基层治理提供有力数据支撑。在日前举办的2024年“数据要素×”大赛全国总决赛上,中国联通主导建设的“基于12345数据融合价值挖掘赋能基层治理”项目,获城市治理赛道应用实践奖。据介绍,该项目围绕城市治理的难点问题,探索出以数据为基础的“五个一”协同治理机制,以热线数据为主,汇聚政务服务、基层网格、企业、物联、视频等多源数据,运用大模型、区块链等技术,开展数据融合创新应用并取得较好成效——在诉求办理方面,服务满意率从88%上升至92%,工单办结率从95%上升至98%,平均办结天数从9天下降至7天。

  “未来公共数据将在教育、医疗、环保、城市治理等领域发挥更大作用。”张向宏以城市治理为例解释说,通过分析城市交通、公共安全、人口分布等数据,可以为城市规划和管理提供更加科学的依据和决策支持;通过实时监测交通流量和拥堵情况,可以优化交通信号灯控制和路线规划,缓解城市交通压力。

  也要看到,目前面向社会提供的公共数据产品和服务还不够充足,供给类型与需求场景不能很好匹配。下一步,要推动数据利用方式向共享汇聚和应用服务能力并重方向转变,更好满足广大经营主体对全国全量数据、地方精细数据等多样化需求。

  《意见》特别强调要繁荣数据产业发展生态。“要支持更多数据技术创新应用,在起步期通过开放公共数据应用场景、政府购买服务等方式进行示范引领,为产业早期发展提供帮扶。”孟庆国建议,通过落实研发费用加计扣除、高新技术企业税收优惠等政策,为数据企业发展提供直接支持。从多方主体、多种维度为从事公共数据资源开发利用的企业赋能,凝聚行业共识,助力行业发展。

  在魏亮看来,前期可以依托运营机构公开的公共数据产品和服务能力清单,鼓励更多经营主体对这些产品和服务进行再开发再利用,通过举办公共数据应用大赛、经验交流研讨会等形式吸引经营主体;从长期看,要综合运用财政、税收等手段,着力培育壮大数据产业,健全容错纠错机制,营造公平、透明、可预期的公共数据资源开发利用市场环境,不断增强产业内生动力。

  统筹发展和安全

  在公共数据资源开发利用过程中,其安全和个人信息保护是业界关注的问题之一。《意见》重申应当保密的公共数据不予开放,严格管控未依法依规公开的原始公共数据直接进入市场,禁止运营机构未经授权超范围使用数据。

  “《意见》重点提出和规范的公共数据授权运营,是在公共数据开发利用过程中统筹发展与安全的一项重要制度创新和实践探索。通过将公共数据授予特定运营机构进行加工处理,划定了明确且有限的数据安全监管对象和范围,在保障安全可控的前提下,向市场提供数据资源、产品和服务。”孟庆国说。

  具体而言,监管层面,各级党政机关、企事业单位应强化数据安全和个人信息保护,建立公共数据资源开发利用全过程监管责任机制。授权运营机构要加强自身安全管理能力和技术能力建设,完善安全管理体系,落实安全管理要求,履行数据安全主体责任。

  技术层面,要增强技术和数据基础设施的安全保障能力,打造可信的数据开发利用环境,通过隐私计算、数据空间等技术促进数据可信流通。

  “我们将始终坚持制度建设、能力建设和过程管理相结合,会同有关部门,将安全保障和权益保护贯穿公共数据资源开发利用全过程,保障相关主体各项权益,防范各类数据风险,不断增强企业和公众的获得感、安全感。”国家数据局数据资源司司长张望说。(记者 李芃达)

发表在 蜜桃移动版 | 留下评论

科技自立自强之专家说|许锦波:望向生物产业下一站

蜜桃移动版网北京6月13日电 题:科技自立自强之专家说|许锦波:望向生物产业下一站

记者 陈听雨

蓝鲸体型庞大,蚍蜉朝生暮死。地球上的生物复杂多样,差异巨大,但从本质上说,都以碳元素为有机物质基础。碳基构成了基本的蛋白质、核酸、嘌呤、嘧啶,其中,蛋白质是一切生命活动的物质基础。

“蛋白质的结构决定功能。DNA储存着我们的遗传信息,然而在细胞中真正执行功能的是蛋白质。”计算生物学家、分子之心创始人兼首席科学家许锦波教授在接受蜜桃移动版网专访时表示,“准确测定蛋白质三维结构对理解蛋白质的功能非常重要。当前,AI技术已经颠覆了蛋白质结构预测,但这只是一个开始,下一个爆发点将是AI蛋白质设计。AI蛋白质优化与设计上的突破,有望引发未来生物产业的颠覆性突破、乃至生物经济的重构。”   

图为计算生物学家、分子之心创始人兼首席科学家许锦波教授。 蜜桃移动版网 朱家齐 摄

蛋白质折叠:现代分子生物学“皇冠上的明珠”

在人体中,蛋白质就像一台精心组装的机器,它的零件是人体内的20余种氨基酸。氨基酸分子遵照我们生命的密码——基因序列中蕴含的遗传信息指令,像珠子一样有序缀连起来,形成多肽链,构成蛋白质的一级结构。氨基酸分子连接成多肽链后,蛋白质分子的建造还未结束,还需要进一步折叠成三维结构才能发挥功能。可是基因序列只决定氨基酸序列的合成,并不包含更多信息指导它如何折叠成独特的三维结构。

氨基酸序列折叠方式的秘密蕴含在自身之中,它们自设计自己如何折叠。一维多肽链中的氨基酸分子好似懂得互相沟通一样,它们有些相互排斥,有些彼此吸引,形成螺旋、折叠成褶皱,构成蛋白质的二级结构。接着进一步折叠成独特的空间结构,像一根毛线绕成线团那样,构成蛋白质的三级结构。

整个蛋白质折叠的过程看似随机,却又仿佛遵循着一张设计蓝图,一旦组成蛋白质的氨基酸序列确定下来,它的折叠方式也就完全确定了。

“蛋白质在生物体中能发挥多种多样的功能,很大程度上取决于它们的三维结构,‘看清’它们的结构对理解其功能至关重要。但想要破解这种结构需要花很长的时间,有些甚至难以完成。”许锦波说。

在过去几十年中,科学家通过晶体衍射、核磁共振、冷冻电镜等实验技术来测定蛋白质中所有原子的三维坐标。但这些方式耗时长、花费高、成功率低,导致蛋白质结构预测始终是生物科学领域悬而未决的难题之一,因此被称作现代分子生物学“皇冠上的明珠”。

目前地球上已知的蛋白质约有两亿种,每一种蛋白质都有独特的空间结构。自然界经过漫长的生命进化过程,蛋白质分子在瞬息间就能自发完成整个折叠过程。但科学家若想通过计算氨基酸分子间的相互作用来预测其折叠方式,则要穷尽所有可能的蛋白质构型,需要的时间将超过整个宇宙的年龄。

AI颠覆蛋白质结构预测:这只是一个开始

“现在通过使用AI技术,可以在很短的时间内精确算出蛋白质的三维构象。”许锦波说。

在生物计算领域深耕20余年,许锦波一直致力于用计算机算法、尤其是人工智能算法及大数据技术解决蛋白质结构预测、优化、设计等问题,将AI蛋白质技术推向产业应用。

2016年,许锦波发明的RaptorX-Contact方法,全球首次证明AI可以大幅提升蛋白质结构预测精度,在蛋白质结构预测这一领域取得了实质性的进展。

在许锦波看来,AI特别适合用来解决生命科学中的问题。“经过几十年的发展,生命科学领域发明了很多非常好的实验技术,特别是一些高通量技术可以大规模、高效地产生海量的、多模态、多维度、复杂的实验数据,比如基因测序。而从数据中提取规律,找到模式,是AI的专长,AI刚好可以用来处理这些数据。”他说。

许锦波介绍,通过AI预测蛋白质结构,极大提升了人们对蛋白质的认知,理解蛋白质如何行使其生物功能,认识蛋白质与非蛋白质之间的相互作用,进而让人们更好地理解生命的分子过程,这对生物学、医学和药学等领域具有重要影响。

他举例称,比如通过AI蛋白质结构预测,可以更快速地找到准确的蛋白质靶点,帮助药物研发人员设计更加有效的药物分子。

“计算与生物学的结合,最成功的案例就是AI蛋白质结构预测,这是目前为止,AI对生物学、乃至对整个科学界最大的贡献。但这只是刚刚开始,还远未到结束的时候。”许锦波说。

许锦波认为,AI蛋白质结构预测不可忽视的价值,更在于对蛋白质设计的推动和验证。运用AI,我们可以根据特定的功能需求设计自然界不存在的蛋白质或改造已有的蛋白质。“下一个爆发点将是AI蛋白质设计,这是实现对蛋白质有效利用的必由之路,将为药物研发、新材料、环境保护、绿色农业、食品等领域带来革命性的变化,有可能引发生物产业的颠覆性突破,乃至生物经济的重构。”

AI蛋白质设计:更具价值的颠覆性技术

许锦波从2019年就开始使用预训练机制研发蛋白质设计算法,并取得了很好的成果。2021年9月,许锦波回国创业。2022年1月,他创立了分子之心(MoleculeMind)。

随着ChatGPT引爆生成式AI与大语言模型的浪潮,大模型在生物医药、生物制造等垂直产业领域的应用,逐步引发关注。

在许锦波看来,AI可以很好地处理自然语言,类似的方法也可以用来处理蛋白质的氨基酸序列,构成蛋白质的系列大模型。

“一个蛋白质是非常大的分子,但蛋白质也是由几十个、几百个甚至上千个氨基酸通过化学键串联在一起的。我们可以把每个氨基酸理解为一个词,把一个蛋白质的分子式理解成一个句子,这个句子里面可能只有20个词,通过不同的排列顺序重复使用这些词构成,这样蛋白质的氨基酸序列就和自然语言有了一定的相似度。”许锦波说。

但是,蛋白质又远比自然语言要复杂。一方面我们可以用自然语言去处理蛋白质序列;另外一方面,又要考虑蛋白质本身结构特别复杂的特殊性,他说。

分子之心在AI蛋白质预测、优化与设计等关键技术领域,拥有十余项全球领先的AI算法,并基于此研发了AI蛋白质优化和设计平台MoleculeOS,填补了世界范围内没有功能完整AI蛋白质设计与优化平台的空白。

许锦波介绍,目前,MoleculeOS已应用于产业中,面向药物设计、生物制造等领域的需求,进行多肽、抗体、酶和小蛋白的研究和设计,“用生成而非发现的方法设计出具有特定功能的蛋白质产品,变革药物设计和合成生物学产业模式,开启可编程药物、可编程生物制品定向进化新时代。”

与此同时,分子之心还在研发集成序列、结构、功能和进化的产业级AI蛋白质生成大模型NewOrigin(达尔文)。NewOrigin大模型拥有百亿级参数,学习了海量高度专业、多样的蛋白质大数据,综合运用最新的AI技术,优化算法和物理学方法,可根据结构和功能需求直接生成具有特定功能的蛋白质,满足ChatGPT等通用大模型难以企及的蛋白质生成需求。

“相较于传统的生物实验方法和计算方法,大模型可以大幅度降低湿实验测试的费用和时间。通过使用AI技术,可以创造出一些自然界不存在的、或者很难找到的蛋白质,这些蛋白质真正具有我们所需要的功能,可以对药物设计、生物育种、环境保护、高性能材料等领域带来巨大影响。”许锦波说。

比如,在创新药研发领域,AI蛋白设计正在推动大分子创新药研发范式变革,将传统的筛选“试错”模式变成可预测、可编程,从而提升研发效率和成功率,降低成本。AI不仅可以发现全新靶点,还可以设计合成全新的药物分子,从而设计更好的药物。

在合成生物学领域,AI蛋白质优化与设计技术赋能合成生物学,可设计更高效的催化酶,生成创新蛋白质材料、易降解且能循环使用的环保材料、对人类无毒无残留的绿色农药、更营养安全美味的蛋白质食物、更绿色环保高效的化工产品等。

“现在,我把科研事业的主要目标放在产业应用上,希望能运用前沿、创新的AI蛋白质技术,去解决一些以前解决不了的产业问题,从而为生物产业乃至生物经济带来更多变革。”许锦波说。

在许锦波看来,做科学研究,有两个标准。“第一个是从学术的角度来说,做研究要有原始创新,要尽可能地做一些原创的、从0到1的工作。另外就是要从产业的角度去考虑,要学以致用,研发出来的东西是否能解决真实的问题和重要的问题?这是我现在利用AI技术去改变生物产业的主要出发点。”他说。

发表在 蜜桃移动版 | 留下评论

专访丨窦德景:让国产芯片用起来、跑起来

说起算力、数据可信、模型架构等专业术语,对于多数外行人而言,可能会感到既晦涩难懂,又仿佛这些概念高不可攀,难以捉摸。然而,在近日召开的北电数智“前进·AI异构计算平台”发布会上,记者采访到了发布环节的主讲人——人工智能领域的著名专家窦德景,作为北电数智首席科学家的他,分享了自己对“数据安全可控”与“国产芯片自主创新”的独特诠释。

计算机科学家、名校教授、顶级咨询公司合伙人……尽管身份众多,但在一问一答间,记者却深深感受到了一位研究和教育工作者的热忱。整个访谈过程中,窦德景以其深入浅出的讲解,让复杂的技术问题变得通俗易懂,久违的课堂感,让记者对人工智能的复杂概念和技术细节有了更深刻的理解。

北电数智首席科学家窦徳景

 

基座大模型疯卷模型参数,AI是一本经济账

由于行程较紧,初见窦德景,便被“划重点”似的推荐了关于人工智能领域的权威文献及新闻报道,然后窦德景从AI技术在相关行业场景应用如何落地展开讲解,并着重强调了AI经济账的重要性,尽管科研投入的直接经济效应难以量化,但其成本和产出的关系相对容易计算。相比之下,行业应用中的AI经济账则更为复杂。

他举例解释说,“在蛋白结构预测领域,传统方法如冷冻电镜鉴定的成本高达上亿。如果使用AI技术能够以更低的成本获得比较准确的结果,那么AI就展现出了其明显的优势。”

“现在问题是在全球范围内,不管哪个行业用了AI,投入了大模型,最后企业能否营收划算,这还是很困难的问题。”他认为在没有出现杀手级应用的情况下,如何确定投入与产出的关系,这是一个需要深入研究的问题。因此,尽管AI技术在科研领域取得了显著进展,但在实际应用中,如何量化其投资回报率(ROI)仍是一个挑战。

同时,在全球范围内,AI技术的发展正推动着算力资源的争夺。基座大模型的竞争不仅是模型参数的卷积,更是对底层异构技术的需求。

对此,窦德景提出了一个引人深思的推测:尽管人脑拥有约100万亿参数(注:神经元连接的数目),但实际使用中可能仅涉及其中不到十分之一,因此,10万亿参数可能是AI模型发展的一个关键节点。“以后就是这样的发展趋势,我觉得10万亿会是一个门坎。”他进一步解释说,一旦达到这个量级,模型的优化将不再依赖于参数规模的增加,而是转向其他方面的改进。

因此,为承接万亿参数的模型,未来推动万卡集群的建立也是势在必行。而在当下一超(英伟达)和多强的算力环境里,如何有效利用现有多元算力资源,提升AI产业的核心竞争力的同时,降低企业使用AI算力的门槛并助力AI产业发展,也是从国家到社会,再到北电数智这样一家人工智能原生的国有企业在思考、在投入的事。

让国产芯片从实验室走向现实应用

谈及国产芯片的发展,窦德景坦言:“我们北电数智的一个任务就是让不同的国产芯片一起跑起来,现在已经初见成效。”

芯片发展关系到数据安全。因此,发展多种适配技术,可以更高效地利用国产芯片处理不同类型的数据,同时确保数据的安全性和模型的性能。

在向记者解释“混元适配”概念时,窦德景认为这个概念有一个很重要的方向,也是当前企业的重要任务,“通过集成各种芯片以提供综合算力,并在云平台上运行多样化的大模型,包括基础模型和特定行业的定制模型,其中不同的芯片将根据其在图像处理、视频生成、文本处理和语音识别等不同领域的专长发挥各自的优势。”

相较于市面上眼花缭乱的芯片参数,在现实环境中应用芯片到大模型训练和推理至关重要。这不仅需要依赖芯片厂商在测试环境中提供的报告,更要在实际的政务、医疗、文化等大模型中进行实际测试,利用真实数据来验证性能。

从“谁来用”到“怎样用”,通过举例论证,窦德景一一作出解答。“每个芯片厂商都会说自己的芯片不错,北电数智作为一个有国资背景的企业,没有跟任何芯片厂商做绑定,是可以提供较为公正、客观的评测意见。”窦德景指出,在高性能计算领域往往需要多卡并行,然而由于卡与卡之间需要互联,这可能会导致芯片的实际性能低于单卡原本性能。他还表示,“我们通过对芯片进行实际场景深入评测,获得芯片实际运行结果,并形成对厂商具有指导意义的评测报告。这不仅需要国家的大力支持,也需要在实践中不断验证和优化,以确保实验室的理论成果能够在现实世界中发挥应有的作用。”

让国产芯片实现从“可用”到“好用”的转变,是无数以窦德景为代表的人工智能领域专家学者,对国产芯片跨越式发展和确保数据安全可控的坚定信念与殷切期望。也正是他们从实际应用场景出发,真实准确地评估,助力国产芯片优化,提高其竞争力。

临近采访尾声,谈及与北电数智携手同行,他期待可以共同研发更多能够快速落地的技术产品,通过加速芯片混用、降低智算成本,从而推动国产芯片的繁荣。“虽然国产芯片在技术成熟度和市场应用方面与国际先进水平还存在一定差距,但通过不断的技术创新和产业生态建设,完全有信心实现国产芯片的突破和发展。”窦德景说。(文/朱家齐)

 

窦德景讲解大模型训练幻觉问题:

在短暂的采访中,窦德景也特地针对大模型及行业发展所面临的挑战“着墨良多”。

作为新时代的基建,乃至国家间科技、经济竞争的焦点。大模型的训练依赖于大量的数据。可如果这些数据中存在错误信息或带有偏见,模型在学习过程中就会吸收这些缺陷,导致在生成文本时产生模型幻觉。

“幻觉问题通常发生在模型试图生成与事实或者历史相关的答案时。例如,当问到‘姚明是否获得过奥运奖牌’时,模型可能会基于姚明在篮球领域成就相当的人和奥运奖牌的关联性,错误地生成肯定的答案。而即使存在明确的历史事实和正确答案,模型也可能因为生成算法的特性而给出错误信息。”窦德景说。

不同于发布会现场直播时的郑重其事,访谈中的窦德景,在解释较为复杂的概念问题时,往往简明扼要却又通俗易懂。记者又以自身实例表示,在利用模型搜索自己的作品,并通过替换同事姓名搜索各自作品的时候,发现生成的结果却出奇地一致。

对此,窦德景解释,当提到相关媒体时,模型可能会自动联想到最有名的记者,这是一种联想偏差或自注意力偏差。窦德景进一步解释说,“在我看来,现在幻觉问题基本上已经解决了,幻觉问题怎么产生的?你本来问一些事实和历史问题,如果让它生成,这本身方向就是不对的。生成式AI给你的答案是概率最大,或者说最应该发生的答案,比如,和姚明一样的篮球运动员很多都得过奥运奖牌。模型可能会更关注篮球运动员和奥运奖牌的关系,从而忽略姚明,进而给出姚明得过奥运金牌的答案。这种错误我们叫模型幻觉。模型幻觉产生的原因是因为模型的关注度出现了偏差,将重点错误的附着在了非重要的词段上所导致的。

“北电数智目前在北京市某委办局政务大模型上就很好的规避了这个问题。在技术层面,通过基于注意力区域合理性分析的幻觉监测技术,能够校验模型是否产生了幻觉,并通过对区域关注度的调整,降低了模型产生幻觉的概率。同时还通过创建一个安全可控推理链,实现对政务敏感词的筛选和屏蔽,确保模型互动过程中能够降低或者杜绝错误信息,提升模型问答安全合规的同时降低了模型幻觉。这对大模型在政务场景下的应用是非常有意义的。”

发表在 蜜桃移动版 | 留下评论

科技自立自强之院士说|张平:为突破信息理论贡献中国科学家力量

  蜜桃移动版网北京7月18日电 题:科技自立自强之院士说|张平:为突破信息理论贡献中国科学家力量

  蜜桃移动版网记者 凌纪伟

  探索和利用信息是驱动数字时代发展的策源力。

  信息通信与每个人的生活息息相关,对一个国家的经济社会发展影响深远。对普通人来说,从3G到5G的通信变革让生活变得美好轻松,而对专业人士来说,通信其实已经进入“最难的时代”。由于经典信息论停滞不前,通信技术已经接近经典信息论所预言的理论极限。未来发展方向在哪里?

  语义通信取得新突破

  1948年,现代信息论创始人香农发表《通信的数学理论》论文,七十多年来,该论文一直指引着现代通信一路高歌猛进。

  通信不断迭代演进,AI相伴快速崛起。经典信息论在指导未来智能通信系统构建与研究上所遭遇的局限性,让面向语义通信的研究引起学术界高度关注,而中国工程院院士、北京邮电大学教授张平团队就是引领全球语义通信研究的重要力量。

  “随着时间推移,香农在上世纪四十年代末建立的经典信息理论体系,已经难以适应未来通信技术的发展,我们迫切需要站在巨人的肩膀上予以突破。”张平说。

  香农生活的那个时代,更多是人与人的通信,人们只要相互理解就能高效通信。而在当下数字时代,通信更多发生在机器与机器之间。

  “人与人之间那种天然的智能理解能力,这种‘灵’,能否在机器通信中出现呢?”张平坚信,在AI技术助力下,语义通信能够把模型、通信中蕴藏的含义,通过多模态的形态,以通信的手段完成传递。“AI的引入,为通信系统整体设计提供了全新视角,将带来额外增益,即所谓的‘智简’,可以打破经典理论对人们思想的禁锢。”

  作为新一代通信方式的语义通信,在数学表征和理论依据方面尚不成熟。建立一套严谨的数学模型来描述语义通信的过程是一项具有挑战性的任务,如何构建语义信息论也是当前研究的难点。

  过去几年,张平带领团队一直在信息论领域大胆探索,砥砺奋进,并在语义通信理论方面取得多项突破性成果。近期,该团队的重要论文《语义通信的数学理论》,发表在我国通信领域的顶级期刊《通信学报》,揭示了同义性是语义信息的本质特征,从同义映射这一核心概念出发,建立了完整的语义信息理论框架,全面扩展了通信系统的理论极限。

  “我们发现,语义信息是语法信息的上级抽象,同义性是语义信息的本质特征。”基于同义映射,张平团队引入了语义信息的度量——语义熵,以及上/下语义互信息、语义信道容量、语义率失真函数,从而建立了完整的语义信息度量体系。在新发现的基础上,团队又进一步证明了三个重要的语义编码定理,特别是语义信道容量公式打破了香农界对通信系统的禁锢。

  新的进展,很快在国内外学术界引起关注。大家对这一最新突破产生浓厚兴趣,并肯定了其深远影响。

  “一个伟大的理论必然能概括为系统化的数学表述,而这种数学表述越简洁,就越容易被接受。”中国工程院外籍院士、英国皇家工程院院士、移动通信领域国际著名学者王江舟在《语义通信的数学理论》序言中提出,这篇论文建立了一个源自同义映射概念的语义信息数学框架。应用该理论,可以系统测量和评估语义信息,并设计和优化语义通信系统。

  最近,美国三所大学的科研人员致信张平,肯定了这一数学模型的创新性,认为“同义映射能够为所在的研究领域带来深远影响,并将为各地的研究人员带来激发”。

图为7月10日召开的“信息论:经典与现代”学术研讨会现场(蜜桃移动版网朱家齐 摄)

  中国通信学会7月10日主办的“信息论:经典与现代”学术研讨会上,与会院士专家普遍认同,语义通信技术将成为未来信息通信技术的重要研究方向,具有重要的理论与应用价值。张平团队发表的论文提出的语义信息论,是对经典信息论的自然推广,是中国科学家在信息基础理论上的原创突破。

  引入智能,助力6G智简

  通信是赋能行业的工具,而AI又是赋能通信的重要工具。过去10年,机器学习和深度学习迅速发展,AI赋能通信也成为水到渠成的结果。

  所谓数字世界,归根结底是物理世界的人机物产生的映射。在此之下,通信与人工智能的紧密关系已经非常明晰。在数字世界中,通信系统采集与传输语法信息,在算力、数据以及算法支持下,人工智能技术从语法信息中提取语义信息进行加工处理,进一步,智能决策与控制系统基于语用信息对物理世界执行动作。

  早前,语义通信研究比较多的集中在XR、元宇宙这类应用场景中的实现,具有非常现实的商业意义。在视频业务之外,张平团队敏锐地发现,利用语义通信实现6G网络的智能简约也是一个重点方向,提出了6G智简网络,构建了面向智简6G的“一面-三层”智能高效语义通信网络架构。

  从4G到5G,过去通信的演进发展可以说是靠堆叠式,天线要增加,带宽要增加,功率要增加。未来,随着通信演进迭代,芯片还要越来越小,但已经逼近极限。

  “智能一定会带来简约,一定能开创新的通信演进新道路。”在语义信息论指导下,张平团队提出了语义基物理模型,进一步提出了多项代表性的语义通信关键技术,并搭建了国际首个面向6G通信与智能融合的外场试验网。该试验网验证了语义通信在4G链路上可以达到6G传输能力,在容量、覆盖、效率三项通信核心基础指标上均获得10倍的性能提升。

图为6G外场试验网展示区(蜜桃移动版网朱家齐 摄)

  “以语义信息论为指导进行的系统搭建及6G外场组网,突破了香农界对通信系统的禁锢,可以支撑沉浸式通信、泛在连接、超高可靠低时延、超大规模多连接等6G主要场景的全面性能提升。”在张平看来,语义通信堪称6G及未来通信的“拐点技术”。

  在4G、5G链路上达到6G的传输能力,意义可谓深远。它既体现出智能简约的特点,也带来显著的增益改善。

  “最集中的体现就是通信对资源的要求没那么高了,成本降下来,老百姓都能用得起了。”张平说,在算力方面,只需国产算力,在芯片制程方面,走出了一条另辟蹊径的道路,不再受限于高制程,4G时代的28纳米就能支撑6G发展。

  当新的通信潮流到来时,运营商也看好这一方向。大家认为,6G外场试验网的成功搭建,降低了6G研究门槛,形成贯通理论、技术、标准和应用的全产业链创新环境,促进跨领域创新合作。

  如今,张平团队从实用的物理模型上已经证明了语义信息论的诸多观点,现在只需大规模采用,验证其先进性,就能更快推动其成为6G国际标准,为全球通信事业发展做出中国贡献。

  张平说,“现代语义通信关键技术已经成为6G标准化组织关注的候选技术,目前国家已成立了针对语义通信国际标准化的任务组,由我们牵头,运营商、设备商、终端厂商等国际国内30余家单位积极参与,完成的技术提案已超过60项。”他希望,广泛联合学术界、产业界等各方力量,共同推进语义通信技术的国际标准化工作。

  赋能新业态,贡献新理论

  从提出语义信息论、研发语义通信关键技术,到搭建6G外场试验网,上述研究成果已经形成从基础理论、关键技术到实验验证的完整体系。

  张平团队成功印证了语义通信的可行性,迈出了从0到1的关键一步。“我们把一个基础原理搞清楚了,接下来就是从1到10,这也需要学术界和产业界联合来推动。”张平院士团队成员、北京邮电大学教授许晓东说,我们愿意把技术开放出来,让大家能为移动通信事业发展做出更大贡献。

  实现语义通信已成为未来移动通信系统的重要目标与核心特征之一。作为新兴交叉前沿研究方向,语义通信也会拓展新应用。

  语义信息论指导下的现代语义通信,将为数字经济新业态提供赋能。据张平介绍,目前,这一技术已在沉浸式视频传输、无人车联、无人机网络、泛在连接卫星通信及大规模物联网等场景验证了其优异的性能。例如,基于语义通信的咪咕视频彩铃在今夏欧洲杯期间发布,已完成 100个专题视频彩铃的制作并上线,大幅度提升了窄带高清的用户效果体验。未来,现代语义通信将通过赋能具身智能,助推低空经济、工业互联网、XR、智慧教育、元宇宙等获得更广阔的创新发展。

  在业内专家看来,语义信息是通信与AI融合的关键,借助语义信息,通信融合AI将实现“最后一公里”的目标,推动无线AI、具身智能等应用的成熟与普及。

  王江舟说,信息技术的发展迫切需要一个语义信息的成熟理论。张平团队提出的语义信息论成为经典信息论的自然延伸,后者可以作为特例纳入前者。它将极大促进通信和人工智能技术的快速进步。

  中国科学院院士、通信网络专家尹浩认为,张平团队在通信原理理论、工程化实践方面取得重大进展,其原创性值得肯定。

  在张平本人看来,这次在信息理论研究方面的原创性突破,有助于推动中国产业在国际的竞争力。“我们国家的产业发展呈倒三角形,即应用很好,设备也不错,但越到底层,我们的器件、操作系统越来越弱,特别是到了基础理论层面大都是人家的。今天我们提出了这么一个基础理论,希望让这种竞争不是一个倒三角形,而是一个正方形,我们跟别人是站在同一起跑线。”

  “无线通信的重大创新必须从基础理论上突破”,早在十多年前的3G时代,张平在接受媒体采访时就做出了这样的断定。

  随着语义信息理论的提出并受到国内外关注,张平通过多年不懈奋斗,让自己的断言成为现实,为突破经典理论极限重大科学问题做出了贡献,也揭开了新一轮信息技术革命的面纱。

发表在 蜜桃移动版 | 留下评论

科技自立自强之专家说丨钱政:高校是原创性科学研究的主力军

  蜜桃移动版网北京8月26日电(记者凌纪伟)创新驱动的实质是人才驱动。拔尖创新人才是提升国家核心竞争力的重要战略资源,也是实现高水平科技自立自强的重要支撑。

  高校怎样构建人才自主培养体系,如何深化拔尖创新人才培养?近日,记者采访了北京航空航天大学教务部部长钱政。他表示,北航正加快教育科技人才一体化发展,推动教育全过程数字化,实现更多从0到1的新突破。

  培养拔尖人才 支撑科技自立自强

  1952年建校至今,北京航空航天大学见证了国家的航空工业从无到有的蝶变。

  “我们的第一届本科毕业生,通过合作完成一架飞机,我们自主设计的飞机,实现了我国航空工业的从无到有。这些表明,北航这所学校传承着这样一个基因,始终向着科技自立自强的目标迈进。”钱政说。

  研制新型发动机,突破集成电路关键核心技术,建成国际领先的大型零磁空间……近年来,北京航空航天大学在信息、航空航天等多个领域,瞄准卡脖子关键核心技术实现一个又一个突破。“从建校到现在,我们勇于捕捉科技发展的最前沿,勇于在高校实现从0到1的突破。”钱政表示。

  在钱政看来,“高校在科技自立自强方面,最主要的是原创性的科学研究,也就是从0到1的研究,高校应该成为主力军。”

  科技创新靠人才,人才培养靠教育,教育、科技、人才内在一致、相互支撑。党的二十届三中全会围绕构建支持全面创新体制机制,部署推进教育科技人才体制机制一体改革。

  北京航空航天大学以服务国家战略发展为己任,从培养模式的创新和培养条件的搭建两个方面,构建拔尖创新人才培养体系。

  据钱政介绍,学校深入设计了发动机、集成电路、网络安全和人工智能等方向的本博贯通的人才培养模式,从课程体系、教学模式上进行充分设计和研讨。此外,北航还十分重视人才培养条件的搭建。“我们深度融合了科教和培养教,搭建了北航科教平台,支撑高端人才培养能力的模式探索。我们还强化产教融合,希望通过科教产教紧密结合,深度实现教育科技人才的一体化发展,探索一条人才培养特色发展之路。”

  AI赋能科研教学 塑造数字化人才

  数字化是点燃教育创新的引擎,是塑造教育发展新优势的突破口。中国教育科学研究院发布的全球数字教育发展指数显示,过去3年中国排名从第24位跃升到第9位。

  当下,人工智能、虚拟现实等前沿技术飞速发展,新技术如何赋能教育教学发展,成为摆在高校和教育工作者面前的一个时代课题。

  以人工智能与教育的融合为例,在钱政看来,第一步是要实现教育教学过程的全部数字化,然后才能从中进行人工智能应用的挖掘。“北航已经全部实现了教育教学数字化,包括我们的教室全部是智慧教室,我们的教学过程、教务管理全部数字化。”钱政说,目前北京航空航天大学正在探索和实践AI赋能所有教学过程,涉及AI巡课、AI助教、AI专业评价、AI课程建设等方面。

  钱政坚信,通过几年探索,一定能够总结形成一套AI赋能我国高等教育的模式、体系。相信在人工智能助力下,未来将提升拔尖创新人才的培养能力,引领未来世界高等教育发展潮流。

  数字化技术的应用,能够弥补教学资源的短缺,也有利于培养具备数字化素养的人才。钱政认为,数字技术和数字能力的培养,应该成为高等教育努力探索的方向。培养学生具备高度数字化能力,在走向工作岗位后,能够胜任现在的科技发展需求,应对现代工业发展的挑战。

  党的二十大报告对加快建设教育强国、科技强国、人才强国作出重要部署。北京航空航天大学传承以“空天报国”为内核的北航精神,将继续履行高水平科技自立自强使命担当。

  “展望未来,我们有信心看到北航人和北航自主创新的更多新技术,能够不断孵化,支撑和服务于我们的国防和国民经济发展。”钱政说。

发表在 蜜桃移动版 | 留下评论