向善而生的AI助盲,让AI多一点,障碍少一点******
有人说,盲人与世界之间,相差的只是一个黎明。在浪潮信息研发人员的心中,失去视力的盲人不会陷入永夜,科技的进步正在力图给每一个人以光明未来。
AI助盲在人工智能赛道上一直是最热门的话题之一。以前,让失明者重见光明依靠的是医学的进步或“奇迹”。而随着以“机器视觉+自然语言理解”为代表的多模态智能技术的爆发式突破,更多的失明者正在借助AI提供的感知、理解与交互能力,以另一种方式重新“看见世界”。
新契机:多模态算法或将造福数以亿计失明者
科学实验表明,在人类获取的外界信息中,来自视觉的占比高达70%~80%,因此基于AI构建机器视觉系统,帮助视障患者拥有对外界环境的视觉感知与视觉理解能力,无疑是最直接有效的解决方案。
一个优秀的AI助盲技术,需要通过智能传感、智能用户意图推理和智能信息呈现的系统化发展,才能构建信息无障碍的交互界面。仅仅依靠“一枝独秀”超越人类水平的单模态人工智能比如计算机视觉技术还远远不够,以“机器视觉+自然语言理解”为代表的多模态算法的突破才是正确的新方向和新契机。
多个模态的交互可以提升AI的感知、理解与交互能力,也为AI理解并帮助残障人士带来了更多可能。浪潮信息研发人员介绍说,多模态算法在AI助盲领域的应用一旦成熟,将能够造福数以亿计的失明者。据世卫组织统计,全球至少22亿人视力受损或失明,而我国是世界上盲人最多的国家,占世界盲人总数的18%-20%,每年新增的盲人数量甚至高达45万。
大挑战:如何看到盲人“眼中”的千人千面
AI助盲看似简单,但多模态算法依然面临重大挑战。
多模态智能算法,营造的是沉浸式人机交互体验。在该领域,盲人视觉问答任务成为学术界研究AI助盲的起点和核心研究方向之一,这项研究已经吸引了全球数以万计的视障患者参与,这些患者们上传自己拍摄的图像数据和相匹配的文本问题,形成了最真实的模型训练数据集。
但是在现有技术条件下,盲人视觉问答任务的精度提升面临巨大挑战:一方面是盲人上传的问题类型很复杂,比如说分辨冰箱里的肉类、咨询药品的服用说明、挑选独特颜色的衬衣、介绍书籍内容等等。
另一方面,由于盲人的特殊性,很难提取面前物体的有效特征。比如盲人在拍照时,经常会产生虚焦的情况,可能上传的照片是模糊的或者没有拍全,或者没拍到关键信息,这就给AI推理增加了难度。
为推动相关研究,来自卡内基梅隆大学等机构的学者们共同构建了一个盲人视觉数据库“VizWiz”,并发起全球多模态视觉问答挑战赛。挑战赛是给定一张盲人拍摄的图片和问题,然后要求给出相应的答案,解决盲人的求助。
另外,盲人的视觉问答还会遭遇到噪声干扰的衍生问题。比如说,盲人逛超市,由于商品外观触感相似,很容易犯错,他可能会拿起一瓶醋却询问酱油的成分表,拿起酸奶却询问牛奶的保质期等等。这种噪声干扰往往会导致现有AI模型失效,没法给出有效信息。
最后,针对不同盲人患者的个性化交互服务以及算法自有的反馈闭环机制,同样也是现阶段的研发难点。
多解法:浪潮信息AI助盲靶向消灭痛点
AI助盲哪怕形式百变,无一例外都是消灭痛点,逐光而行。浪潮信息多模态算法研发团队正在推动多个领域的AI助盲研究,只为帮助盲人“看”到愈发精彩的世界。
在VizWiz官网上公布的2万份求助中,盲人最多的提问就是想知道他们面前的是什么东西,很多情况下这些物品没法靠触觉或嗅觉来做出判断,例如 “这本书书名是什么?”为此研发团队在双流多模态锚点对齐模型的基础上,提出了自监督旋转多模态模型,通过自动修正图像角度及字符语义增强,结合光学字符检测识别技术解决“是什么”的问题。
盲人所拍摄图片模糊、有效信息少?研发团队提出了答案驱动视觉定位与大模型图文匹配结合的算法,并提出多阶段交叉训练策略,具备更充分的常识能力,低质量图像、残缺的信息,依然能够精准的解答用户的求助。
目前浪潮信息研发团队在盲人视觉问答任务VizWiz-VQA上算法精度已领先人类表现9.5个百分点,在AI助盲领域斩获世界冠军两项、亚军两项。
真实场景中的盲人在口述时往往会有口误、歧义、修辞等噪声。为此,研发团队首次提出视觉定位文本去噪推理任务FREC,FREC提供3万图片和超过25万的文本标注,囊括了口误、歧义、主观偏差等多种噪声,还提供噪声纠错、含噪证据等可解释标签。同时,该团队还构建了首个可解释去噪视觉定位模型FCTR,噪声文本描述条件下精度较传统模型提升11个百分点。上述研究成果已发表于ACM Multimedia 2022会议,该会议为国际多媒体领域最顶级会议、也是该领域唯一CCF推荐A类国际会议。
在智能交互研究方面上,浪潮信息研发团队构建了可解释智能体视觉交互问答任务AI-VQA,同时给出首个智能体交互行为理解算法模型ARE。该研究成果已发表于ACM Multimedia 2022会议。该研究项目的底层技术未来可广泛应用于AI医疗诊断、故事续写、剧情推理、危情告警、智能政务等多模态交互推理场景。
眼球虽然对温度并不敏感,但浪潮信息的研发团队,却在努力让盲人能“看”到科技的温度,也希望吸引更多人一起推动人工智能技术在AI助盲、AI反诈、AI诊疗、AI灾情预警等更多场景中的落地。有AI无碍,跨越山海。科技的伟大之处不仅仅在于改变世界,更重要的是如何造福人类,让更多的不可能变成可能。当科技成为人的延伸,当AI充满人性光辉,我们终将在瞬息万变的科技浪潮中感受到更加细腻温柔的善意,见证着更加光明宏大的远方。
南佐“古国”:黄土高原上最早的国家******
“宫城”祭祀区出土的带盖塞陶瓶 作者供图
“宫城”区发掘现场 作者供图
“宫城”祭祀区出土的白陶带盖簋 作者供图
“宫城”祭祀区炭化水稻出土区域(局部) 作者供图
【考古中国】
我们常说中华文明五千年。什么是“文明”?现在一般所说的“文明”,多指对“Civilization”等西文词语的意译,可以理解为国家管理下物质、精神和制度创造的总和。“国家是文明社会的概括”,国家固然不等同于“文明”,但要称得上“文明”,则必须进入国家阶段。恩格斯曾提出国家产生的两个标志,一是“按地区来划分它的国民”,二是“公共权力的设立”。按地区划分国民指以地缘关系代替血缘关系,公共权力的集中体现则是“王权”。以此衡量,距今5100年左右的南佐都邑遗址,是黄土高原上最早出现国家社会的标志,为中华文明五千多年增添了又一实证。
甘肃庆阳西峰西郊的南佐遗址,坐落在黄土高原第一大塬——董志塬上,传说中这里是黄帝部族的重要活动地域,也是以农业著称的周人祖先不窋的老家。南佐遗址发现于1958年,1984—1986年和1994—1996年有过两个阶段的发掘,从2021年开始第三阶段的发掘和调查、勘探工作,基本确认这是一处以仰韶文化晚期大型聚落为主体的遗址,遗址面积在600万平方米以上,可能有外环壕。聚落中部是由9座方形夯土台及其环壕围成的面积约30万平方米的核心区,核心区中部偏北是数千平方米的由“护城河”和夯土宫墙围成的“宫城”。“宫城”中心为主殿,“九台”之外还有多处居住区、夯土台、沟渠水利设施等遗存,出土了大量白陶、黑陶等珍贵遗物和大量水稻,从多个方面显现出早期国家和文明社会的气象。
数千人数年建成的“国家级”工程
南佐聚落不仅整体规模巨大,而且宫殿、夯土台、壕沟水利设施等的建筑工程量也很惊人。以聚落中部的“九台”来说,每座夯土台约40米见方,现存还有5~7米高,复原起来就像九座小金字塔。每座台子外周有宽约20米、深约10米的方形内环壕,内环壕的侧壁及底部有2~4米厚的夯土护壁,以防流水对黄土沟壁的侵蚀。我们推测环壕不仅有礼仪象征和防御作用,而且是与其他沟壕池沼连通的、有实际用途的大型水利工程。内环壕外还有一周宽约20米的外环壕,内、外壕总长度估计在5千米以上。“九台”环壕工程总土方量当在75万立方米以上,以当时的条件,大概需要5000人工作1年时间才能完成。如果以壕沟中挖出来的土夯筑“九台”,所费工时应当不比挖筑壕沟少。
再看中央“宫城”区。有夯土围墙的长方形“宫城”东西宽约55米、南北长约67米,面积在3600平方米以上。“宫城”外有宽约15米、深10米多的“护城河”,它的两侧也有夯土护壁。加上“护城河”,整个“宫城”区占地面积就有8000多平方米。“宫城”中部偏北的主殿占地面积700多平方米,两个顶梁柱柱洞直径各约1.5米,中央火坛(火塘)直径3.2米——差不多是两个成年人的身长,规模之大前所未见。“宫城”东西两侧还各有一列侧室(侧殿)。所有这些宫墙、房墙都以版筑方法夯筑得十分坚实精整,窄处宽1~1.5米,最宽处可达5米,现存高度1.5~3.5米,是国内发现年代最早、规模最大、保存最好的夯土建筑遗存。
“宫城”区建筑材料还包括土坯和最早的红砖,各处地面、墙壁都以石灰多层涂抹,甚至宫墙也不例外,这也是国内最早大范围使用白灰面装饰建筑的实例。我们可以想见,五千年前的南佐“宫城”,到处都是那么洁白明亮,和大家熟悉的北京紫禁城的色彩大不相同。我们估计,“宫城”区的建筑工程量应该不会少于“九台”区。
经勘探和试掘,在“九台”外其他区域还发现有多处白灰面窑洞式房屋居住区、夯土台、壕渠水利工程等,加上可能存在的外环壕,整体建设工程量巨大。所有这些工程的主体部分理应是大体同时建造完成的,因此需要数千人劳作数年,这还不包括建筑工程的后勤保障在内。据此推测,南佐都邑人口或许有上万之众。也只有出现了强制性的区域“王权”,集合起国家力量,才有可能完成如此壮举。
南佐所在的董志塬上还有一些面积为数十万平方米的聚落,出土的精美白陶、黑陶说明这些聚落的级别较高,可能是从属于南佐的卫星聚落。陇东甚至整个黄土高原,分布着大量仰韶晚期聚落遗址,但还没有第二处能够和南佐的规模相当。即便是秦安大地湾聚落延续到这个时期,规模也是远次于南佐。南佐聚落如此大的体量,“九台”、壕沟和宫殿建造所需要的强大组织调动能力,当是区域公共权力或者区域王权出现的最有力证明。南佐都邑大概是从周围迁入很多人口,集中规划建设而成,这必然会造成一定程度的血缘社会重组,形成具有地缘关系的早期国家组织。由此推断,当时在黄土高原地区应当已经出现了一个以南佐为核心的“古国”。
中轴对称建筑格局的滥觞
南佐都邑及“宫城”具有清晰的中心对称、中轴对称格局。“九台”及核心区位于聚落中心,“宫城”位于“九台”中心,主殿位于“宫城”中心,大火坛位于主殿中心。主殿坐北朝南,从主殿大堂后部两个顶梁柱中间,向南到主殿中门(共有三门)、“宫城”南门,构成大致南北向的中轴线,东西两侧的侧室(侧殿)和壕沟对称分布。
再放大一些视野,“九台”中的北台就在这条中轴线的北端,东西两侧各有四台互相对称。“宫城”南墙外还有一道与其平行的外墙,类似后世的萧墙或影壁。外墙的门与“宫城”南门错开几米,两道墙之间的空间兼具瓮城功能,增强了“宫城”的封闭性和防御性。如此布局严整的多个圈层结构的南佐聚落,应是阶级秩序的礼制性体现,开后世古典建筑格局中轴对称的先河。
我们推测“九台”和主殿应当主要是祭祀礼仪场所,“宫城”区部分侧室(侧殿)有可能作为首领人物的居所。我们注意到由窑洞式建筑组成的普通居住区基本位于“九台”以外,推测“九台”所围绕的30万平方米的核心区,可能整体都属于与祭祀相关的“圣区”或者贵族居住区。这是一种将神权和区域王权紧密结合在一起的、以王权为核心的建筑格局,凸显了王权至上,与西亚等地神庙和王宫分开且以神庙为核心的情况有显著区别。
礼制出现和阶级分化
南佐“宫城”区出土了白陶、黑陶、绿松石珠等贵重物品,成套的彩陶、朱砂陶、白衣陶、白泥堆纹陶,涂抹朱砂的石镞、骨镞,以及大量炭化水稻遗存,与普通居址区形成鲜明对照,显示当时不但有了较高水平的专业化分工,而且已出现礼制和阶级分化。
白陶、黑陶在黄土高原罕见,但在南佐“宫城”区却发现不少,精致者陶胎最薄处仅有一两毫米,表面光滑细腻,有釉质光泽。如此轻薄精美的陶器,理应用快轮拉坯的方法制作,但我们一直没有在陶器上发现快轮旋转痕迹,制作工艺还是个谜。制作彩陶是黄土高原的传统,南佐有些彩陶表面有釉质光泽,有些彩陶成套出土,具有礼器性质。比如在主殿以东祭祀区就集中出土9件小口平底的彩陶酒瓶,每件高度都在60厘米左右,还都配有特殊的盖塞——可既盖又塞,以防止酒精挥发。南佐的朱砂陶、白衣陶、白泥堆纹陶等也都是具有祭祀礼仪性质的特殊器物。朱砂常涂在一种带有圆饼装饰的鼓类器物上,器表内外涂白衣的做法则见于簋、双腹盆、钵、缸、罐、瓮等很多器物上。白泥堆纹陶罐在其他遗址很罕见,但在南佐仅“宫城”东部祭祀区就出土数百件,大小不一,可能是成套的祭祀礼器。经测定,南佐大部分陶器烧造温度在1000℃以上,最高达1116℃,而一般新石器时代陶器烧造温度在700~1000℃之间。令人惊讶的,还有“宫城”东部祭祀区数以百万粒计的炭化水稻的发现,粟、黍数量极少,反之在“宫城”其他区则绝大多数都是炭化粟、黍。黄土高原农业本来就以粟、黍为主而少见水稻,以珍贵的水稻献祭神祇祖先,也应当是礼制的反映。
南佐“宫城”区出土物还体现出与长江中游、黄河下游等地区的远距离联系。白陶、黑陶都最早出现于六七千年前的长江中游地区,南佐这两类陶器的出现有受到长江中游文化启示的可能性。尤其是南佐不少黑陶属于夹炭陶,这也是长江流域的古老传统。有意思的是,南佐有的黑陶仅覆盖陶器表面很薄一层,已能做到很好地控制渗碳层厚度,工艺技术和良渚文化最为接近,不排除与良渚文化有交流。据科技考古检测,南佐白陶所用原料为高岭土和瓷石,高岭土质量与后世制造白瓷的瓷土质量接近,瓷石原料可能产自南方,有些白陶上面的海洋结晶涂层原料可能来自海岱地区。黄土高原不产绿松石、朱砂,南佐的这两类原料有来自长江中下游地区的可能性。大量水稻不排除当地种植的可能性,但也有可能是从长江中游等地远距离贸易获得。可见南佐“古国”应当存在对远距离贸易获取稀缺资源的控制,这也是国家社会的特征之一。
目前,南佐的考古工作才开了个头,很多谜团还有待后续解开。但据现有的发现就已经能够证明,中华文明和苏美尔文明、埃及文明一样,是诞生于五千年前的三大原生文明之一。
(作者:韩建业,系中国人民大学历史学院教授、博导,南佐遗址考古发掘项目负责人)
(文图:赵筱尘 巫邓炎)