Takara Taniguchi - DEV Community

Takara Taniguchi

Jul 29

[memo]Generating Distractors for Reading Comprehension Questions from Real Examinations

#nlp #ai #pwl #computerscience

1 min read

Takara Taniguchi

Jul 23

[memo]WHEN AN LLM IS APPREHENSIVE ABOUT ITS ANSWERS - AND WHEN ITS UNCERTAINTY IS JUSTIFIED

#discuss #llm #ai

1 min read

Takara Taniguchi

Jul 20

[memo]The Internal State of an LLM Knows When It’s Lying

#discuss #pwl #machinelearning #llm

1 min read

Takara Taniguchi

Jul 19

[memo]Droid: A large-scale in-the-wild robot manipulation dataset

1 min read

Takara Taniguchi

Jul 18

[memo]A Vision-Language-Action Flow Model for General Robot Control

1 min read

Takara Taniguchi

Jul 14

[memo]RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation

#robotics #ai #pwl #computerscience

1 min read

Takara Taniguchi

Jul 13

[memo]SafeVLA: Towards Safety Alignment of VisionLanguage-Action Model via Constrained Learning

#ai #machinelearning #computervision #pwl

1 min read

Takara Taniguchi

Jul 11

[memo]LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning

1 min read

Takara Taniguchi

Jul 9

[memo]Visual Instruction Tuning

1 min read

Takara Taniguchi

Jul 9

[memo]Training-free Regional Prompting for Diffusion Transformers

#ai #deeplearning #promptengineering #pwl

1 min read

Takara Taniguchi

Jul 8

memo clearsight

1 min read

Takara Taniguchi

Jul 6

[memo]OpenVLA: An Open-Source Vision-Language-Action Model

1 min read

Takara Taniguchi

Jul 5

[memo]MMBench: Is Your Multi-modal Model an All-around Player?

1 min read

Takara Taniguchi

Jul 5

[memo]Enhancing Distractor Generation Retrieval Augmented Pretraining and Knowledge Graph Integration

1 min read

Takara Taniguchi

Jul 4

[memo]FLUX.1 Kontext: Flow Matching for In-Context Image Generation and Editing in Latent Space

1 min read

Takara Taniguchi

Jul 4

[memo]Textual Distractors Generation for Multiple-Choice Visual Question Answering via Reinforcement Learning

1 min read

Takara Taniguchi

Jul 4

[memo]Generating Plausible Distractors for Multiple-Choice Questions via Student Choice Prediction

1 min read

Takara Taniguchi

Jul 4

[memo]Evaluating the Quality of Hallucination Benchmarks for Large Vision-Language Models

1 min read

Takara Taniguchi

Jul 3

[memo]Unified Hallucination Detection for Multimodal Large Language Models

1 min read

Takara Taniguchi

Jun 29

[memo]OminiControl: Minimal and Universal Control for Diffusion Transformer

1 min read

Takara Taniguchi

Jun 29

[memo]Scalable Diffusion Models with Transformers

1 min read

Takara Taniguchi

Jun 28

[memo]A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge

#nlp #ai #gpt3 #computervision

1 min read

Takara Taniguchi

Jun 28

[memo] Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding

#computervision #ai #deeplearning #pwl

1 min read

Takara Taniguchi

Jun 28

[memo]VIDHAL: Benchmarking Temporal Hallucinations in Vision LLMs

#ai #computervision #llm

1 min read

Takara Taniguchi

Jun 26

[memo]AMBER: An Adversarial Multimodal Benchmark for Robustness Evaluation

1 min read

Takara Taniguchi

Jun 20

[memo]mPLUG-Owl : Modularization Empowers Large Language Models with Multimodality

#ai #nlp #llm #openai

1 min read

Takara Taniguchi

Jun 18

[memo] MotionLLM: Understanding Human Behaviors from Human Motions and Videos

1 min read

Takara Taniguchi

Jun 18

[memo]Flamingo: a Visual Language Model for Few-Shot Learning

1 min read

Takara Taniguchi

Jun 18

[memo]AUTOHALLUSION: Automatic Generation of Hallucination Benchmarks for Vision-Language Models

1 min read

Takara Taniguchi

Jun 18

[memo]VideoVista: A Versatile Benchmark for Video Understanding and Reasoning

1 min read

Takara Taniguchi

Jun 15

[memo]Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

1

1 min read

Takara Taniguchi

Jun 14

CoCa: Contrastive Captioners are Image-Text Foundation Models

1

1 min read

Takara Taniguchi

Jun 13

[memo]AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

#machinelearning #ai #deeplearning #paper

1 min read

Takara Taniguchi

Jun 13

[memo]Enhancing Video-LLM Reasoning via Agent-of-Thoughts Distillation

1 min read

Takara Taniguchi

Jun 11

Pythonのドッカーイメージについて

#python #docker #computervision

1 min read

Takara Taniguchi

Jun 11

[For me] AI-toolkit bug report

#bug #python #ai #tooling

1 min read

Takara Taniguchi

Jun 11

[memo]VITED: Video Temporal Evidence Distillation

1 min read

Takara Taniguchi

Jun 11

Enhancing Video-LLM Reasoning via Agent-of-Thoughts Distillation

#machinelearning #ai #llm #computervision

1 min read

Takara Taniguchi

Jun 8

Image Difference Captioning with Pre-training and Contrastive Learning

2

1 min read

Takara Taniguchi

Jun 7

VideoPrism: A Foundational Visual Encoder for Video Understanding

#machinelearning #ai #computervision #google

1 min read

Takara Taniguchi

Jun 6

Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models

1 min read

Takara Taniguchi

Jun 6

Learning Transferable Visual Models From Natural Language Supervision

1 min read

Takara Taniguchi

Jun 6

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

1 min read

Takara Taniguchi

Jun 5

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

1 min read

Takara Taniguchi

Jun 2

TextFlux: An OCR-Free DiT Model for High-Fidelity Multilingual Scene Text Synthesis

#discuss #ai #deeplearning #machinelearning

1 min read

Takara Taniguchi

May 30

Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding

#discuss #ai #mlp #architecture

1 min read

Takara Taniguchi

May 30

Video Instruction Tuning With Synthetic Data

#ai #machinelearning #datascience #programming

1 min read

Takara Taniguchi

May 28

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

#machinelearning #ai #nlp #algorithms

1 min read

Takara Taniguchi

May 26

Transparent Image Layer Diffusion using Latent Transparency

#discuss #machinelearning #ai #softwareengineering

1 min read

Takara Taniguchi

May 25

MASH-VLM: Mitigating Action-Scene Hallucination in Video-LLMs through Disentangled Spatial-Temporal Representations (1)

#ai #llm #machinelearning #datascience

1 min read

Takara Taniguchi

May 25

Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation

1 min read

Takara Taniguchi

May 23

VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models

#ai #machinelearning #softwareengineering

1 min read

Takara Taniguchi

May 21

Denoising Diffusion Probabilistic Models

#machinelearning #ai #datascience

1 min read

Takara Taniguchi

May 19

ANYTEXT: MULTILINGUAL VISUAL TEXT GENERATION AND EDITING

#ai #machinelearning #deeplearning #nlp

1 min read

Takara Taniguchi

May 18

PromptMRG: Diagnosis-Driven Prompts for Medical Report Generation

1 min read

Takara Taniguchi

May 17

CARAT: Contrastive Feature Reconstruction and Aggregation for Multi-Modal Multi-Label Emotion Recognition

#ai #machinelearning #nlp #softwaredevelopment

1 min read

Takara Taniguchi

May 15

Seeing is Believing: Mitigating Hallucination in Large VisionLanguage Models via CLIP-Guided Decoding

#discuss #ai #computervision

1 min read

Takara Taniguchi

May 14

Cross-Covariate Gait Recognition: A Benchmark

1 min read

Takara Taniguchi

May 13

DiffusionEdge: Diffusion Probabilistic Model for Crisp Edge Detection

1 min read

Takara Taniguchi

May 12

Kernelized Normalizing Constant Estimation: Bridging Bayesian Quadrature and Bayesian Optimization

#softwaredevelopment #computerscience #machinelearning

1 min read

Writing Debut