马里兰团队打造辅助喂食机器人,可用于老人进食和儿童保育 仿生机器人照顾老人 美国智能喂食机器人视频
admin
2024-05-12 19:43:39
0

近日,上海交通大学本科校友、美国马里兰大学博士生刘睿和所在团队,提出了一种适用于机器人辅助喂食的视觉模仿学习方法。


图 | 刘睿(来源:刘睿)

该方法可以有效处理多样化的碗配置和食物类型,即使存在干扰物的情况下也表现出良好的适应性和鲁棒性。

通过在真实机器人上开展实验,验证了本次方法的有效性,模型的成功度量指标最高提高 2.5 倍。

通过此,他们展示了机器人辅助喂食领域的创新性进展,也展示了在模仿学习和视觉感知方面的应用,为机器人技术发展提供了新的参考。

作为一款辅助喂食型机器人,该机器人能应对不同的喂食场景,包括不同容器、不同大小,不同属性的食物,并能满足用户的不同偏好。

同时,它能被用于个人家庭、医院、养老院等。预计机器人有潜力彻底改变辅助服务,包括帮人做家务、辅助喂食、复健等。


(来源:arXiv)

预计将能实现以下三大场景:

其一,服务于具有特殊需求的群体。

对于身体残障人士、老年人和行动不便人群,可以通过喂食机器人获得自主性和独立性。

其二,服务于医疗应用的场景。

在医院和康复中心,喂食机器人可以帮助医护人员减轻工作负担,提高患者的营养摄入。它可以精确控制食物分配,定时提醒患者进食,并记录摄入量以供医生评估。

其三,可用于儿童保育场景。

在托儿所和幼儿园,喂食机器人可以帮助保育员更有效地管理多个孩子的饮食,确保他们获得充足的营养,同时降低过度依赖人工喂养的负担。


超数百万成年人需要援助才能实现独立饮食

预计到 2050 年,60 岁及以上的人口数量将增加一倍,全世界的医疗保健系统和社会服务必须适应人口老龄化。

随着人口老龄化,老年人和残疾人辅助喂食的需求变得越来越迫切。目前,有超数百万成年人需要援助才能实现独立饮食,这直接影响他们的自尊和生活质量。

不幸的是,由于医护人员短缺和服务成本高昂,导致难以为所有有需要的人提供护理。

而辅助喂食机器人可以有效减轻医疗保健系统的压力,特别是在医护人员短缺的情况下。

目前,市面上已有的辅助喂食机器人,主要依赖于预编程的启发式方法,无法处理具有不同质地、几何形状、变形特性的食物。

基于此,课题组打算开发一款新型辅助喂食机器人,他们希望该机器人能学习并适应各种不同的容器(碗、盘子)和不同的食物类型,最终改善需要辅助喂食的老年人和残疾人的生活质量。


(来源:arXiv)


即使存在干扰物,仍能保持性能

在本次项目之中,该团队的重点目标是实现辅助喂食功能。其中,装有叉子/勺子的机械臂,可以叉取或舀取一部分的食物,并将其转移到使用者的嘴中。

也就是说他们要开发一种机器人喂食系统,利用深度学习技术、并建立新颖的感知策略和学习策略,从而该系统可以处理多种食物,并能提供个性化帮助。

课题组希望实现的是:当机器人遇到看不见的食物时,可以利用人工智能工具(例如 ChatGPT)来获取先验知识,并通过模仿学习或强化学习的方式,使其能够实现成功喂食。

这是一种持续的学习过程,并且可以在机器人和食物之间进行转移。

例如,如果机器人系统已经接受过西兰花的训练,但是没有接受过花椰菜的训练,那么考虑到这两种食物在属性上的相似之处,它就应该传输应对这两种食物的知识。

这就需要整合感知(认识到盘子上的东西是花椰菜)、语义理解(认识到花椰菜和西兰花具有相似的物理特征,因此学习可以迁移)、运动规划(用叉子将花椰菜叉起来)。

与此同时,该团队希望可以让机器人从一小部分人类演示的数据中掌握控制策略,然后将知识转移到之前没有见过的食品上,从而避免收集大量人工数据带来的成本。

研究中,如何获取食物、如何检测用户位置、如何根据用户的偏好和指令做出不同响应、如何安全地将食物转移到使用者口中,都是该团队要考虑的问题。

而在本次项目之中,他们更加关注如何获取食物。因此,如何使机器人能从不同材质、不同大小、不同位置的碗中舀取,包括颗粒状、半固态和液态在内的各种食物类型,并且即使在存在干扰物的情况下也能保持鲁棒性和适应性,是课题组的主要研究目标。

为此,他们设计了一款名为自适应视觉模仿学习(AVIL,Adaptive Visual Imitation Learning)的框架,并开发了空间注意力模块。

AVIL 框架是一个综合型智能控制系统,能用于实现辅助喂食机器人的自适应和智能化。

而空间注意力模块,则是 AVIL 框架中的一个重要组成部分。它通过对环境进行感知和理解,实现对于碗和食物的精准识别和精准处理。

空间注意力模块能以动态的方式,调整图像中不同区域的比重,从而让模型可以集中注意于感兴趣的区域(即碗和食物的位置)。

这样一来,模型就可以准确地舀取位于不同位置、不同大小的碗中食物,并且可以抵抗其他物体的干扰,从而提高模型的鲁棒性。

研究中,他们还采用了一种名为行为克隆(Behavior Cloning)的模仿学习算法,将输入的 RGB 图像和机器人的关节位置,映射到相应的机器人控制动作。

而在数据收集和模型训练阶段,课题组通过 kinesthetic teaching(即人类操作员引导机器人模仿舀取动作)收集数据,并记录 RGB 图像和机器人关节位置,从而用于训练模型。

上述这些数据包括机器人在不同环境下的操作过程、碗和食物的特征、以及人类专家的行为示范等。

完成数据手机之后,他们针对模型开展训练,以便让机器人运动轨迹和人类专家运动轨迹之间的误差达到最小,从而让机器人可以模仿人类专家的行为。

训练过程中,他们不断地调整网络参数,以此来提高模型的准确性和鲁棒性。

完成模型训练之后,该团队又在一款名为 “UR5” 的真实机器人上进行实验,以验证本次方法的有效性。

期间,他们测试了不同材质、不同大小、 不同位置的碗,也测试了不同类型的食物包括颗粒状谷物、半固态果冻和液态水。

为进一步验证 AVIL 的有效性,课题组设计了一个 Baseline 的方法进行比较。

Baseline 方法使用 RetinaNet 来进行碗的检测,并能计算碗的中心点,然后指导机器人移动到该位置进行舀取。

实验结果表明:AVIL 在不同碗配置、不同食物类型、不同碗位置的性能比较之中,都比 Baseline 表现更佳。

值得一提的是,即使在没有直接训练的情况下,即零样本泛化情况之下,AVIL 只在一个盛有颗粒状谷物的透明玻璃碗的数据上接受了训练,但它却展示了针对不同大小的塑料碗、和不同食物类型的有效性能。

此外,他们还模拟了存在干扰物的情况,以此来测试本次模型的鲁棒性和适应性。

结果发现:对干扰物 AVIL 同样表现出较好的鲁棒性,即使存在干扰物的情况下也能保持性能。


(来源:arXiv)

最终,相关论文以《机器人辅助喂养的自适应视觉模仿学习在不同的碗配置和食物类型》(Adaptive Visual Imitation Learning for Robotic Assisted Feeding Across Varied Bowl Configurations and Food Types)为题发在 arXiv[1]。

刘睿、普拉塔普·托克卡尔(Pratap Tokekar)、阿米沙·巴斯卡(Amisha Bhaskar)是共同作者。


图 | 相关论文(来源:arXiv)

据介绍,本次研究仅仅关注于如何获取食物。下一步,该团队获奖研究如何将食物安全地送入使用者口中。

此外,其还计划提升本次系统的用户友好度,以满足不同用户的偏好。

并计划通过合作方式,将视觉模仿网络与其他类型的机器人加以集成,从而扩展其应用范围。

此外,课题组还将进一步优化本次模型,使其能够处理更复杂的喂食场景。

参考资料:

1.https://arxiv.org/pdf/2403.12891

排版:刘雅坤

01/ 科学家用二氧化碳合成多碳醇,已完成8000小时稳定性评价,助力缓解过度依赖化石资源

02/ 科学家制备梯度石墨烯气凝胶,实现高浓度盐水持续淡化,并构建太阳能脱盐灌溉系统

03/ AlphaFold3来了!无需输入任何结构信息,生物分子预测精度高出50%

04/ 科学家研发高熵合金纳米颗粒,尺寸在3.5纳米左右,能模拟太阳光条件下的二氧化碳还原

05/ 揭开化学反应“黑匣子”,杨学明院士团队联合发展控制氢分子立体取向新方法,精准调控化学反应


相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
JAVA多线程知识整理 Java多线程基础 线程的创建和启动 继承Thread类来创建并启动 自定义Thread类的子类&#...
【洛谷 P1090】[NOIP... [NOIP2004 提高组] 合并果子 / [USACO06NOV] Fence Repair G ...
国民技术LPUART介绍 低功耗通用异步接收器(LPUART) 简介 低功耗通用异步收发器...
城乡供水一体化平台-助力乡村振... 城乡供水一体化管理系统建设方案 城乡供水一体化管理系统是运用云计算、大数据等信息化手段࿰...
程序的循环结构和random库...   第三个参数就是步长     引入文件时记得指明字符格式,否则读入不了 ...
中国版ChatGPT在哪些方面... 目录 一、中国巨大的市场需求 二、中国企业加速创新 三、中国的人工智能发展 四、企业愿景的推进 五、...
报名开启 | 共赴一场 Flu... 2023 年 1 月 25 日,Flutter Forward 大会在肯尼亚首都内罗毕...
汇编00-MASM 和 Vis... Qt源码解析 索引 汇编逆向--- MASM 和 Visual Studio入门 前提知识ÿ...
【简陋Web应用3】实现人脸比... 文章目录🍉 前情提要🌷 效果演示🥝 实现过程1. u...
前缀和与对数器与二分法 1. 前缀和 假设有一个数组,我们想大量频繁的去访问L到R这个区间的和,...
windows安装JDK步骤 一、 下载JDK安装包 下载地址:https://www.oracle.com/jav...
分治法实现合并排序(归并排序)... 🎊【数据结构与算法】专题正在持续更新中,各种数据结构的创建原理与运用✨...
在linux上安装配置node... 目录前言1,关于nodejs2,配置环境变量3,总结 前言...
Linux学习之端口、网络协议... 端口:设备与外界通讯交流的出口 网络协议:   网络协议是指计算机通信网...
Linux内核进程管理并发同步... 并发同步并发 是指在某一时间段内能够处理多个任务的能力,而 并行 是指同一时间能够处理...
opencv学习-HOG LO... 目录1. HOG(Histogram of Oriented Gradients,方向梯度直方图)1...
EEG微状态的功能意义 导读大脑的瞬时全局功能状态反映在其电场结构上。聚类分析方法一致地提取了四种头表面脑电场结构ÿ...
【Unity 手写PBR】Bu... 写在前面 前期积累: GAMES101作业7提高-实现微表面模型你需要了解的知识 【技...